---
title: 'Tratamento Dados-Irregularidades-ComDinheiro'
author:
- \textbf{Thalis Alexandre Sotero}
- Universidade Federal do Espírito Santo
- \textbf{Vagner Antonio Marques}
- Universidade Federal do Espírito Santo
- \textbf{Patrícia Pain}
- Universidade Federal do Espírito Santo
output:
  html_document:
    df_print: paged
  pdf_document: default
  word_document: default
geometry: top=2.54cm, bottom=2.54cm, left=2.54cm, right=2.54cm
mainfont: Times New Roman
fontsize: 12pt
paragraph_spacing: doublespacing
header-includes:
- "\\usepackage{graphicx, graphics, eso-pic}"
- \usepackage[T1]{fontenc}
- \usepackage[utf8]{inputenc}
- \usepackage{amsfonts}
- \usepackage{amssymb}
- \usepackage{makeidx}
- \usepackage{color}
- \usepackage[brazilian]{babel}
- \usepackage{natbib}
- \usepackage{hyperref}
- \usepackage{url}
- \usepackage{indentfirst}
- \usepackage[]{authblk}
- \usepackage{ragged2e}
- \usepackage{blindtext}
- \usepackage{amstext} % for \text macro
- \usepackage{array}   % for \newcolumntype macro
- \usepackage{multirow}
- \usepackage{booktabs}
- \usepackage{adjustbox}
- \usepackage{lipsum}
- \usepackage{makecell}
- \usepackage{float}
- \usepackage{longtable}
- \usepackage{caption}
- \usepackage{xcolor}
- \usepackage{fancyhdr}
- \usepackage{times}
- \usepackage{lastpage}
- \usepackage[overload]{textcase}
- \usepackage{parskip}
- \usepackage{booktabs}
- \usepackage{longtable}
editor_options:
  markdown:
    wrap: 72
---

## Definindo o diretório

```{r}
setwd("C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO")
```

## Carregando pacotes

```{r pacotes, echo=TRUE, message=FALSE, warning=FALSE, paged.print=FALSE}
pacotes <- c("AER","base", "basictabler", "bibtex","BiocManager", "bookdown","caper", "car","caret", "conflicted","correlation","corrplot","cowplot","DescTools","distill","dplyr","encrptr","factoextra","FactoMineR","fastDummies","flextable","foreign","gdata", "ggrepel","ggtree",     "ggplot2","ggpubr","graphics", "grid","gridExtra","gtsummary","httr2","jsmodule", "jtools","knitr","kableExtra","knitLatex","lmtest", "lubridate","magick","margins", "marginaleffects", "MASS", "MatchIt","mfx","mgcv","minqa","modelr" ,"mgcv","nnet","nortest","OddsPlotty","papaja", "pandoc","palmerpenguins","performance", "pglm","plm","plotly","plotly", "pROC","pscl","psych","rddtools","readr", "regclass","rJava", "readxl","RefManageR", "remotes", "reshape2", "repos", "report","ReporteRs","reshape2","rgl","rlang","rmarkdown","Rmisc","ROCR","RSelenium", "scales","sjlabelled", "stargazer","stats","stringr", "stringi","texreg","tidyr","tidyverse", "tinytex","tseries","truncnorm", "visreg","viridis", "xfun","xlsx","xtable","wesanderson", "writexl","vdr")
```

```{r instalando, echo=TRUE, message=FALSE, warning=FALSE, paged.print=FALSE}
options(repos = "https://cran.rstudio.com/")
if(sum(as.numeric(!pacotes %in% installed.packages())) != 0){
  instalador <- pacotes[!pacotes %in% installed.packages()]
  for(i in 1:length(instalador)) {
    install.packages(instalador, dependencies = T)
    break()}
  sapply(pacotes, require, character = T)
} else {
  sapply(pacotes, require, character = T)
}
```


## Coleta na ComDinheiro

### Seleção dos papéis

https://www.comdinheiro.com.br/StockScreenerCadastral001-Empresas+com+registro+ativo-23122023-1-todos

Escolhidas nessa etapa todas as empresas com registro ativo (ações ON) e sem registro ativo (registro cancelado a partir do ano 2007)

COM TICKERS

02740 AALR3 ABCB3 ABEV3 ABYA3 ACES3 ACGU3 ADHM3 AEDU3 AELP3 AERI3 AESB3 AESL3 AESO3 AETA3 AFLT3 AFLU3 AGBK4 AGEI3 AGEN11 AGIN3 AGRO3 AGXY3 AHEB3 ALBA3 ALLD3 ALOS3 ALPA3 ALPK3 ALSC3 ALTR3 ALTS3M ALUP3 AMAR3 AMBP3 AMBV3 AMCE3 AMER3 AMIL3 AMPI3 AMRI3 ANDG3B ANIM3 APER3 APPA3 APTI3 ARCE3 ARCZ3 ARLA3 ARML3 ARTE3 ARTR3 ASAI3 ASSM3 ASTA3 ATBS3 ATMP3 ATOM3 AURA32 AURE3 AUTM3 AVIL3 AVLL3 AZEV3 AZUL3 AZZA3 B3SA3 BAHI3 BALM3 BASU3 BAUH3 BAZA3 BBAS3 BBDC3 BBML3 BBSE3 BBTG11 BDLL3 BEEF3 BEES3 BEMA3 BEMG3 BEPA3 BERG3 BESP3 BETP3B BFIT3 BFRE3 BGIP3 BGOS3 BHEQ3 BHGR3 BHIA3 BICB3 BIDI3 BIOB3 BIOM3 BISA3 BIVT3 BJUL3B BLAU3 BLUT3 BMEB3 BMEF3 BMGB4 BMIN3 BMKS3 BMOB3 BMTO3 BNBR3 BNCA3 BNPA3B BOAS3 BOBR3 BOBR3 BOVH3 BPAC3 BPAN3 BPAR3 BPAT11 BPHA3 BPIA3 BPLA3 BRAP3 BRAV3 BRFS3 BRGE3 BRHA3 BRIT3 BRIV3 BRKM3 BRML3 BRPR3 BRQB3 BRSR3 BRTP3 BSAN33 BSCT3 BSEG3 BSEV3 BSGR3 BSLI3 BUET3 CABI3B CACO3B CAFE3 CAIA3B CALA3B CALI3 CAMB3 CAML3 CANT3B CARB3 CASH3 CASN3 CATA3 CBAG3 CBAV3 CBEE3 CBMA3 CCHI3 CCIM3 CCRO3 CCTU3 CCXC3 CDOU3 CEAB3 CEBR3 CEDO3 CEEB3 CEED3 CEGR3 CELM3 CEPE3 CESP3 CEVA3 CFLU3 CGAS3 CGEE3 CGOS3 CGRA3 CHAP3 CIEL3 CIQU3 CLAN3 CLSA3 CLSC3 CMET3 CMIG3 CMIN3 CMMA3 CMSA3 CNFB3 CNSY3 COAR3 COBE3B COCE3 COGN3 COMR3 CORR3 CPCA3 CPFE3 CPFL3 CPFP3 CPLE3 CPNY3 CPRE3 CPSL3 CPTP3B CRBM3 CREM3 CRFB3 CRGT3 CRIV3 CRPG3 CRTE3B CRTP3 CRUZ3 CSAB3 CSAN3 CSED3 CSMB3 CSMG3 CSNA3 CSPC3 CSRN3 CSTB3 CSUD3 CTCA3 CTIP3 CTKA3 CTLG3 CTMI3 CTNM3 CTPC3 CTSA3 CTWR3 CURY3 CVCB3 CXSE3 CYRE3 CZLT33 CZRS3 DAGB33 DASA3 DAYC3 DESK3 DEXP3 DFVA3 DHBI3 DIRR3 DJON3 DMFN3 DMMO3 DMVF3 DNEN3B DOCA3 DOHL3 DOTZ3 DPPI3 DSUL3 DTCY3 DUFB11 DUQE3 DURA3 DXCO3 DXTG3 EALT3 EBCO3 EBEN3 EBTP3 ECIS3 ECOR3 ECPR3 EDNE3 EEEL3 EGIE3 EKTR3 ELAT3 ELEK3 ELET3 ELEV3 ELMD3 ELPL3 ELUM3 EMAE3 EMBR3 EMXS3 ENAT3 ENBR3 ENEV3 ENGI3 ENJU3 ENMT3 EPAR3 EQMA3B EQPA3 EQTL3 ERIC3 ESPA3 ESTR3 ETER3 ETRO3B EUCA3 EVEN3 EZTC3 FAPC3 FBMC3 FBRA3 FCAP3 FESA3 FFTL3 FGUI3 FHER3 FIBR3 FIEI3 FIGE3 FIQE3 FLBR4 FLCL3 FLEX3 FLRY3 FOMS3 FRAS3 FRIO3 FRRN3B FRTA3 FTRT3B FTRX3 G2DI33 GAFP3 GALO3 GAZO3 GBIO33 GEPA3 GETI3 GETT3 GFSA3 GGBR3 GGPS3 GMAT3 GMSA3 GNDI3 GOAU3 GOLL3 GPAR3 GPIV33 GRAO3 GRND3 GRNL3 GRUC3 GSHP3 GTDP3B GUAR3 GVTT3 HAGA3 HAPV3 HBOR3 HBRE3 HBSA3 HBTS3 HCBR3 HETA3 HGTX3 HOOT3 HPIA3 HYPE3 ICPI3 IDVL3 IENG3 IFCM3 IGBR3 IGSN3 IGTA3 IGTI3 IGUA3 ILLS3 ILMD3 IMBI3 IMCH3 INBR32 INEP3 INNC3 INTB3 IRBR3 IRON3 ITEC3 ITSA3 ITUB3 IVEN3 IVIL3 IVPR3B JALL3 JBSS3 JFAB3 JFEN3 JHSF3 JOIN3 JOPA3 JSLG3 KEPL3 KLAB3 KLAS3 KLBN3 KRSA3 KSSA3 LAEL3 LAME3 LAND3 LARK3 LATM11 LATS3 LAVV3 LCAM3 LCSA3 LECO3 LETO3 LEVE3 LFFE3 LGLO3 LHER3 LIAS3 LIGH3 LIGT3 LINX3 LIPR3 LIXC3 LJQQ3 LLBI3 LMED3 LOGG3 LOGN3 LPSB3 LREN3 LTEL3B LTLA3B LUPA3 LUXM3 LVTC3 LWSA3 MAGG3 MAGS3 MAHS3 MAOR3B MAPT3 MARI3 MATD3 MBLY3 MCWS3 MDIA3 MDNE3 MEAL3 MEDI3 MELK3 MEND3 MERC3 MGEL3 MGLU3 MILK11 MILS3 MLAS3 MLCF3 MLPA3 MLPP3 MMAQ3 MMXM3 MNDL3 MNPR3 MNSA3 MNZC3B MOAR3 MODL3 MONP3B MOSI3 MOVI3 MPLU3 MRFG3 MRLM3B MRSA3B MRSL3 MRVE3 MSAN3 MSPA3 MSRO3 MTIG3 MTRE3 MTSA3 MULT3 MWET3 MYPK3 NAFG3 NATU3 NCNE3 NEMO3 NEOE3 NETC3 NEWT3B NEXP3 NGRD3 NINJ3 NORD3 NRTQ3 NTCO3 NUBR33 NUTR3 ODER3 ODPV3 OFSA3 OGXP3 OIBR3 OMGE3 ONCO3 OPCT3 OPDL3B OPGM3B OPHE3B OPRE3B OPSE3B OPTS3B OPZI3B ORVR3 OSXB3 OXIT3 PACF3 PALF3 PARD3 PASS3 PATI3 PBEL3B PCAR3 PDGR3 PDTC3 PEAB3 PEFX3 PETR3 PETZ3 PFRM3 PGMN3 PICO3 PINE3 PIRE3 PITI3 PLAS3 PLDN3 PLPL3 PMAM3 PMET3 PNOR3 PNVL3 POMO3 POPR3 PORP3 PORT3 POSI3 POWE3 PPAR3 PQTM3 PQUN3 PRBC3 PRBN3 PRCA3 PREB11 PRIO3 PRML3 PRMN3B PRNR3 PRPT3B PRTX3 PRVI3 PSEG3 PSSA3 PTBL3 PTCA3 PTIP3 PTNT3 PTPA3 PTQS3 PVFS3 PVLT3 PVPR3 QUAL3 QUSW3 QVQP3B QVUM3B RADL3 RAIA3 RAIL3 RAIZ3 RANI3 RAPT3 RBNS3 RCSL3 RDCD3 RDNI3 RDOR3 RDTR3 RECV3 REDE3 REEM3 RENT3 REPA3 RGEG3 RHDS3 RHER3 RIPI3 RIVA3 RJCP3 RLOG3 RNEW3 RNPT3 ROMI3 ROSI3 RPAD3 RPMG3 RPSA3 RSID3 RSIP3 RSUL3 RUMO3 SAGP3B SALM4 SANB3 SAPR3 SASG3 SBFG3 SBSP3 SCAR3 SCLO3 SDIA3 SEBB3 SEDU3 SEER3 SEMP3 SEQL3 SETI3B SFSA3 SGEN3 SGPS3 SHOW3 SHUL3 SIBR3 SIFC3 SIMH3 SJOS3 SLAE3 SLAL3 SLCE3 SLCP3 SLCT3B SLED3 SMFT3 SMLE3 SMLS3 SMTO3 SNSY3 SOJA3 SOLO3 SOMA3 SOND3 SPRI3 SPRT3B SQIA3 SQRM3 SRNA3 STBP3 STBR3 STKF3 STRP3 STTR3 SUBA3 SULA3 SULT3 SUZB3 SYNE3 SZPQ3 TAEE3 TAMM3 TASA3 TCHN3 TCNO3 TCOC3 TCSA3 TDBH3 TECN3 TEFC11 TEGA3 TEKA3 TELB3 TEMP3 TEND3 TENE3 TERI3 TESA3 TFCO4 TGLT11 TGMA3 TIET3 TIMP3 TIMS3 TKNO3 TLCP3 TLVT3B TMAR3 TMCP3 TNCP3 TNEP3 TNLP3 TOTS3 TOYB3 TPIS3 TPRC3 TRAD3 TRBR3 TRFO3 TRIS3 TROR3 TRPL3 TRPN3 TSEP3 TSPC3 TTEN3 TUPY3 TVIT3 TXRX3 UBBR3 UCAS3 UCOP3 UGPA3 UNIP3 UOLL3 UPKP3B USIM3 VAGV3 VALE3 VAMO3 VBBR3 VDNP3B VGOR3 VIGR3 VINE3 VITT3 VIVA3 VIVO3 VIVR3 VIVT3 VLID3 VLTR3B VPSC3 VPTA3 VSPT3 VSTE3 VULC3 VVEO3 WEGE3 WEST3 WHMT3 WHRL3 WISA3 WIZC3 WLMM3 WMBY3 WSON11 WWOW3 YBRA3B YDUQ3 ZAMP3

SEM TICKERS

02522 02762 02642 02339 02732 02561 02673 02674 02735 02344 02103 01785 08022 02639 02703 02743 02643 02647 02683 02412 02421 02651 02754 02767 02659 02741 02198 02200 02199 02197 02196 00135 02146 02592 02620 01677 02698 02586 01964 02737 02749 02393 01972 02731 01875 02769 02699 02483 02739 02688 02268 01571 02664 02619 01416 01667 02459 02557 02030 02032 02653 02747 02652 02710 02748 01637 00332 01674 02610 02634 02692 02353 02724 01854 02517 02706 02442 02443 02415 02414 02351 02386 02214 02226 02389 02685 02410 02241 02535 02383 02184 02388 02746 02019 02742 02663 02658 02039 02413 02758 02759 02753 02272 02207 02729 02392 00468 02734 02615 02680 02474 02766 02726 01895 02697 01421 02358 02745 02190 02687 02281 02694 02689 02534 02590 00557 02193 01899 02486 02458 02755 02434 02627 02445 02448 02764 02667 01534 02670 02538 02542 02433 02297 02181 01570 02752 01479 02669 02337 02750 02532 02721 02616 02660 01485 02733 02567 02656 02646 02577 02690 02672 02256 01786 02175 02725 02599 09000 01858 02081 01936 02115 02244 02563 02618 02355 02738 02736 02300 02493 02368 02367 02488 02481 02650 02637 02671 01626 00345 00874 02258 02661 02632 02582 02152 02498 02509 02708 02470 02362 02695 02666 02641 02722 02704 02328 02514 01468 02744 02530 02164 02720 00952 02761 02760 02352 00971 02346 02681 02323 02756 02696 02763 02768 02757 02765 02572 02562 02714 02316 02635 02648 01793 02713 02354 01918 01959 01519 02338 02541 01056 02678 01430 01624 02701 02707 02395 02406 02676 02332 01540 01985 02625 02709 02222 02665 02044 02524 02623 02682 02408 02519 02719 02686 02716 02155 02630 02543 02494 02702 02476 02640 02691 02292 02560 02254 02751 02705 02120 02718 02723 02585 01574 01655 02711 02000 02360 02597 01592 02028 00542 01487 01995 01230 02082 00817 01163 01288 01274 01191 00694 01236 00222 01795 00027 00166 00284 00898 01838 01820 01679 01256 00074 01246 00123 00137 00381 01323 01566 01657 01558 00723 01254 00855 01406 01740 00359 00006 01441 01294 00483 00552 01456 01902 00979 01039 01824 02029 00968 01967 01756 01753 02147 01750 01647 01690 01971 01645 02128 01774 01834 01567 01856 00328 01557 01212 01497 00753 01363 00890 01735 02086 01932 01842 01228 01900 02138 02131 00964 01514 01675 01739 01681 01659 01494 01527 02010 02129 01966 00182 01469 02059 02069 02073 02140 02122 01721 01409 02132 01475 01604 01728 01848 02058 02031 01666 02136 01873 02125 01978 02127 02042 02157 02189 00822 01917 02167 01928 00363 01513 08005 01772 02150 01504 02108 01919 00727 00214 02154 02092 01506 01203 01189 00193 00213 01301 01531 01292 00325 00352 00371 01555 00372 00387 01390 00447 01382 00481 00321 01779 00585 00589 01440 00639 00684 00738 00743 01267 00361 01064 00862 01608 00924 01752 01495 00949 00957 01706 00997 01600 00195 01106 01296 01170 01808 01863 02142 01980 02040 01950 01996 02166 02240 02224 01921 02252 02141 00587 01401 01914 02209 01949 00375 01946 02253 01568 02187 01898 00597 01963 01737 02206 02229 02262 02041 01704 01993 01924 01891 02210 01887 00706 01405 02228 02105 00985 01892 02153 01561 00120 01940 02270 02215 02271 02246 02274 02219 02232 01958 02211 01669 01160 02046 01890 02231 02296 02273 02275 02264 02158 02220 02007 02290 02178 02156 01979 02180 02321 02311 02325 02340 01969 02195 01584 02203 02310 01954 01975 00669 02169 01516 01689 02336 01286 01937 01778 01997 01867 02186 02237 02365 02366 02364 01960 02299 02378 01874 01938 08010 02050 02334 00411 02291 02312 02319 02283 02289 02307 02304 02288 02308 02302 02305 02023 01981 01589 02165 02397 02402 02309 02160 02282 02403 02293 01951 01989 02375 01935 02204 01379 02400 01952 01759 01511 02333 01871 01970 02223 00695 02287 02432 02263 02038 02341 02419 02424 02137 02391 02183 02441 02407 02320 02450 02295 01986 01974 02110 02185 02266 01984 02182 02363 01573 02387 00172 01994 01565 02461 02265 02467 02463 02055 02067 01922 02444 01957 01901 01285 02437 02285 02394 02343 02465 02457 02013 02168 02485 01915 00459 02430 02404 01512 02613 02151 01998 01149 02428 00159 01492 02374 02473 02497 02335 02601 02631 02521 02472 02451 02452 02559 02502 02526 02626 02505 02489 02248 02356 02276 02162 02596 02515 02390 01840 02479 02022 02468 02453 02684 02369 02227 02399 02675 02677 02645 02594 02581 02649 02531 02294 02657 02668 01502 01508 02566 02436 02536 02455 02216 02573 02192 02621 02464 02622 01947 02174 02370 02239 02225 02604 02376 02280 01828 02633 02629 02611 02456 02477 02102 02242 02347 01942 02107 02693 02636 02301 02170 00124 02679 02313 02447 01823 02306 01843 02712 02638 01855 02449 02401 01582 01496 02654 02286 02655 01461 02730 02380 02727 02385 02384 02208

### Indicadores

Para colar na ComDinheiro:

INFO_EMPRESA(CNPJ) INFO_EMPRESA(RAZ_SOC) INFO_EMPRESA(DT_CONST) DATA_REGISTRO DIVIDA_LIQUIDA DIVIDA_BRUTA AT RB RL DVA_RECEITA_VENDAS_MERC_PROD_SERV CONTAS_A_RECEBER IMOBILIZADO DEPRE_AMOR MARKET_VALUE FCI FCF FCO AC CAIXA_E_EQUIVALENTES PC PNC IMP_LUCRO IMP_LUCRO_CORRENTE DVA_IMP_TAXAS_CONTRIB_ESTADUAIS DVA_IMP_TAXAS_CONTRIB_FEDERAIS DVA_IMP_TAXAS_CONTRIB_MUNICIPAIS DVA_VALOR_TOTAL_A_DISTRIBUIR RESULTADO_ANTES_TRIB PL PESQUISA_DESENVOLVIMENTO PROP_PARA_INVESTIMENTOS LL SEGMENTO SETOR SETOR_COMDINHEIRO EMP_FIN_CP IR_E_CONTRIB_SOCIAL_A_PAGAR  INTANGIVEL IND_GOVERNANCA(CNPJ_AUD,,,) IND_GOVERNANCA(NOME_AUD,,,) IND_GOVERNANCA(QME_ADM,,,) IND_GOVERNANCA(QME_FISCAL,,,) IND_GOVERNANCA(QMI_ADM,,,) IND_GOVERNANCA(QMT_ADM,,,) IND_GOVERNANCA(QMT_DIRETORIA,,,) IND_GOVERNANCA(QMT_FISCAL,,,)  CLIENTES ESTOQUES INTANGIVEIS RLP EMP_FIN EMP_FIN_LP EBIT EBITDA LUB DFC_IR_CSLL_PAGOS ACIONISTA(TOTAL,PERCENT,1,) ACIONISTA(ON,PERCENT,1,) 

Olhar planilha "Tabela Variáveis-lista para coleta" para ver a descrição de cada indicador.


### Link coleta ano 2023 - ComDinheiro

Com Tickers Acoes ON

https://www.comdinheiro.com.br/ComparaEmpresas001.php?&data_d=31122023&data_a=09/12/2024&trailing=12&conv=MIXED&c_c=consolidado%20preferencialmente&moeda=MOEDA_ORIGINAL&m_m=&n_c=2&f_v=1&papeis=02740+AALR3+ABCB3+ABEV3+ABYA3+ACES3+ACGU3+ADHM3+AEDU3+AELP3+AERI3+AESB3+AESL3+AESO3+AETA3+AFLT3+AFLU3+AGBK4+AGEI3+AGEN11+AGIN3+AGRO3+AGXY3+AHEB3+ALBA3+ALLD3+ALOS3+ALPA3+ALPK3+ALSC3+ALTR3+ALTS3M+ALUP3+AMAR3+AMBP3+AMBV3+AMCE3+AMER3+AMIL3+AMPI3+AMRI3+ANDG3B+ANIM3+APER3+APPA3+APTI3+ARCE3+ARCZ3+ARLA3+ARML3+ARTE3+ARTR3+ASAI3+ASSM3+ASTA3+ATBS3+ATMP3+ATOM3+AURA32+AURE3+AUTM3+AVIL3+AVLL3+AZEV3+AZUL3+AZZA3+B3SA3+BAHI3+BALM3+BASU3+BAUH3+BAZA3+BBAS3+BBDC3+BBML3+BBSE3+BBTG11+BDLL3+BEEF3+BEES3+BEMA3+BEMG3+BEPA3+BERG3+BESP3+BETP3B+BFIT3+BFRE3+BGIP3+BGOS3+BHEQ3+BHGR3+BHIA3+BICB3+BIDI3+BIOB3+BIOM3+BISA3+BIVT3+BJUL3B+BLAU3+BLUT3+BMEB3+BMEF3+BMGB4+BMIN3+BMKS3+BMOB3+BMTO3+BNBR3+BNCA3+BNPA3B+BOAS3+BOBR3+BOBR3+BOVH3+BPAC3+BPAN3+BPAR3+BPAT11+BPHA3+BPIA3+BPLA3+BRAP3+BRAV3+BRFS3+BRGE3+BRHA3+BRIT3+BRIV3+BRKM3+BRML3+BRPR3+BRQB3+BRSR3+BRTP3+BSAN33+BSCT3+BSEG3+BSEV3+BSGR3+BSLI3+BUET3+CABI3B+CACO3B+CAFE3+CAIA3B+CALA3B+CALI3+CAMB3+CAML3+CANT3B+CARB3+CASH3+CASN3+CATA3+CBAG3+CBAV3+CBEE3+CBMA3+CCHI3+CCIM3+CCRO3+CCTU3+CCXC3+CDOU3+CEAB3+CEBR3+CEDO3+CEEB3+CEED3+CEGR3+CELM3+CEPE3+CESP3+CEVA3+CFLU3+CGAS3+CGEE3+CGOS3+CGRA3+CHAP3+CIEL3+CIQU3+CLAN3+CLSA3+CLSC3+CMET3+CMIG3+CMIN3+CMMA3+CMSA3+CNFB3+CNSY3+COAR3+COBE3B+COCE3+COGN3+COMR3+CORR3+CPCA3+CPFE3+CPFL3+CPFP3+CPLE3+CPNY3+CPRE3+CPSL3+CPTP3B+CRBM3+CREM3+CRFB3+CRGT3+CRIV3+CRPG3+CRTE3B+CRTP3+CRUZ3+CSAB3+CSAN3+CSED3+CSMB3+CSMG3+CSNA3+CSPC3+CSRN3+CSTB3+CSUD3+CTCA3+CTIP3+CTKA3+CTLG3+CTMI3+CTNM3+CTPC3+CTSA3+CTWR3+CURY3+CVCB3+CXSE3+CYRE3+CZLT33+CZRS3+DAGB33+DASA3+DAYC3+DESK3+DEXP3+DFVA3+DHBI3+DIRR3+DJON3+DMFN3+DMMO3+DMVF3+DNEN3B+DOCA3+DOHL3+DOTZ3+DPPI3+DSUL3+DTCY3+DUFB11+DUQE3+DURA3+DXCO3+DXTG3+EALT3+EBCO3+EBEN3+EBTP3+ECIS3+ECOR3+ECPR3+EDNE3+EEEL3+EGIE3+EKTR3+ELAT3+ELEK3+ELET3+ELEV3+ELMD3+ELPL3+ELUM3+EMAE3+EMBR3+EMXS3+ENAT3+ENBR3+ENEV3+ENGI3+ENJU3+ENMT3+EPAR3+EQMA3B+EQPA3+EQTL3+ERIC3+ESPA3+ESTR3+ETER3+ETRO3B+EUCA3+EVEN3+EZTC3+FAPC3+FBMC3+FBRA3+FCAP3+FESA3+FFTL3+FGUI3+FHER3+FIBR3+FIEI3+FIGE3+FIQE3+FLBR4+FLCL3+FLEX3+FLRY3+FOMS3+FRAS3+FRIO3+FRRN3B+FRTA3+FTRT3B+FTRX3+G2DI33+GAFP3+GALO3+GAZO3+GBIO33+GEPA3+GETI3+GETT3+GFSA3+GGBR3+GGPS3+GMAT3+GMSA3+GNDI3+GOAU3+GOLL3+GPAR3+GPIV33+GRAO3+GRND3+GRNL3+GRUC3+GSHP3+GTDP3B+GUAR3+GVTT3+HAGA3+HAPV3+HBOR3+HBRE3+HBSA3+HBTS3+HCBR3+HETA3+HGTX3+HOOT3+HPIA3+HYPE3+ICPI3+IDVL3+IENG3+IFCM3+IGBR3+IGSN3+IGTA3+IGTI3+IGUA3+ILLS3+ILMD3+IMBI3+IMCH3+INBR32+INEP3+INNC3+INTB3+IRBR3+IRON3+ITEC3+ITSA3+ITUB3+IVEN3+IVIL3+IVPR3B+JALL3+JBSS3+JFAB3+JFEN3+JHSF3+JOIN3+JOPA3+JSLG3+KEPL3+KLAB3+KLAS3+KLBN3+KRSA3+KSSA3+LAEL3+LAME3+LAND3+LARK3+LATM11+LATS3+LAVV3+LCAM3+LCSA3+LECO3+LETO3+LEVE3+LFFE3+LGLO3+LHER3+LIAS3+LIGH3+LIGT3+LINX3+LIPR3+LIXC3+LJQQ3+LLBI3+LMED3+LOGG3+LOGN3+LPSB3+LREN3+LTEL3B+LTLA3B+LUPA3+LUXM3+LVTC3+LWSA3+MAGG3+MAGS3+MAHS3+MAOR3B+MAPT3+MARI3+MATD3+MBLY3+MCWS3+MDIA3+MDNE3+MEAL3+MEDI3+MELK3+MEND3+MERC3+MGEL3+MGLU3+MILK11+MILS3+MLAS3+MLCF3+MLPA3+MLPP3+MMAQ3+MMXM3+MNDL3+MNPR3+MNSA3+MNZC3B+MOAR3+MODL3+MONP3B+MOSI3+MOVI3+MPLU3+MRFG3+MRLM3B+MRSA3B+MRSL3+MRVE3+MSAN3+MSPA3+MSRO3+MTIG3+MTRE3+MTSA3+MULT3+MWET3+MYPK3+NAFG3+NATU3+NCNE3+NEMO3+NEOE3+NETC3+NEWT3B+NEXP3+NGRD3+NINJ3+NORD3+NRTQ3+NTCO3+NUBR33+NUTR3+ODER3+ODPV3+OFSA3+OGXP3+OIBR3+OMGE3+ONCO3+OPCT3+OPDL3B+OPGM3B+OPHE3B+OPRE3B+OPSE3B+OPTS3B+OPZI3B+ORVR3+OSXB3+OXIT3+PACF3+PALF3+PARD3+PASS3+PATI3+PBEL3B+PCAR3+PDGR3+PDTC3+PEAB3+PEFX3+PETR3+PETZ3+PFRM3+PGMN3+PICO3+PINE3+PIRE3+PITI3+PLAS3+PLDN3+PLPL3+PMAM3+PMET3+PNOR3+PNVL3+POMO3+POPR3+PORP3+PORT3+POSI3+POWE3+PPAR3+PQTM3+PQUN3+PRBC3+PRBN3+PRCA3+PREB11+PRIO3+PRML3+PRMN3B+PRNR3+PRPT3B+PRTX3+PRVI3+PSEG3+PSSA3+PTBL3+PTCA3+PTIP3+PTNT3+PTPA3+PTQS3+PVFS3+PVLT3+PVPR3+QUAL3+QUSW3+QVQP3B+QVUM3B+RADL3+RAIA3+RAIL3+RAIZ3+RANI3+RAPT3+RBNS3+RCSL3+RDCD3+RDNI3+RDOR3+RDTR3+RECV3+REDE3+REEM3+RENT3+REPA3+RGEG3+RHDS3+RHER3+RIPI3+RIVA3+RJCP3+RLOG3+RNEW3+RNPT3+ROMI3+ROSI3+RPAD3+RPMG3+RPSA3+RSID3+RSIP3+RSUL3+RUMO3+SAGP3B+SALM4+SANB3+SAPR3+SASG3+SBFG3+SBSP3+SCAR3+SCLO3+SDIA3+SEBB3+SEDU3+SEER3+SEMP3+SEQL3+SETI3B+SFSA3+SGEN3+SGPS3+SHOW3+SHUL3+SIBR3+SIFC3+SIMH3+SJOS3+SLAE3+SLAL3+SLCE3+SLCP3+SLCT3B+SLED3+SMFT3+SMLE3+SMLS3+SMTO3+SNSY3+SOJA3+SOLO3+SOMA3+SOND3+SPRI3+SPRT3B+SQIA3+SQRM3+SRNA3+STBP3+STBR3+STKF3+STRP3+STTR3+SUBA3+SULA3+SULT3+SUZB3+SYNE3+SZPQ3+TAEE3+TAMM3+TASA3+TCHN3+TCNO3+TCOC3+TCSA3+TDBH3+TECN3+TEFC11+TEGA3+TEKA3+TELB3+TEMP3+TEND3+TENE3+TERI3+TESA3+TFCO4+TGLT11+TGMA3+TIET3+TIMP3+TIMS3+TKNO3+TLCP3+TLVT3B+TMAR3+TMCP3+TNCP3+TNEP3+TNLP3+TOTS3+TOYB3+TPIS3+TPRC3+TRAD3+TRBR3+TRFO3+TRIS3+TROR3+TRPL3+TRPN3+TSEP3+TSPC3+TTEN3+TUPY3+TVIT3+TXRX3+UBBR3+UCAS3+UCOP3+UGPA3+UNIP3+UOLL3+UPKP3B+USIM3+VAGV3+VALE3+VAMO3+VBBR3+VDNP3B+VGOR3+VIGR3+VINE3+VITT3+VIVA3+VIVO3+VIVR3+VIVT3+VLID3+VLTR3B+VPSC3+VPTA3+VSPT3+VSTE3+VULC3+VVEO3+WEGE3+WEST3+WHMT3+WHRL3+WISA3+WIZC3+WLMM3+WMBY3+WSON11+WWOW3+YBRA3B+YDUQ3+ZAMP3&indic=INFO_EMPRESA(CNPJ)+INFO_EMPRESA(RAZ_SOC)+INFO_EMPRESA(DT_CONST)+DATA_REGISTRO+DIVIDA_LIQUIDA+DIVIDA_BRUTA+AT+RB+RL+DVA_RECEITA_VENDAS_MERC_PROD_SERV+CONTAS_A_RECEBER+IMOBILIZADO+DEPRE_AMOR+MARKET_VALUE+FCI+FCF+FCO+AC+CAIXA_E_EQUIVALENTES+PC+PNC+IMP_LUCRO+IMP_LUCRO_CORRENTE+DVA_IMP_TAXAS_CONTRIB_ESTADUAIS+DVA_IMP_TAXAS_CONTRIB_FEDERAIS+DVA_IMP_TAXAS_CONTRIB_MUNICIPAIS+DVA_VALOR_TOTAL_A_DISTRIBUIR+RESULTADO_ANTES_TRIB+PL+PESQUISA_DESENVOLVIMENTO+PROP_PARA_INVESTIMENTOS+LL+SEGMENTO+SETOR+SETOR_COMDINHEIRO+EMP_FIN_CP+IR_E_CONTRIB_SOCIAL_A_PAGAR+INTANGIVEL+IND_GOVERNANCA(CNPJ_AUD,,,)+IND_GOVERNANCA(NOME_AUD,,,)+IND_GOVERNANCA(QME_ADM,,,)+IND_GOVERNANCA(QME_FISCAL,,,)+IND_GOVERNANCA(QMI_ADM,,,)+IND_GOVERNANCA(QMT_ADM,,,)+IND_GOVERNANCA(QMT_DIRETORIA,,,)+IND_GOVERNANCA(QMT_FISCAL,,,)+CLIENTES+ESTOQUES+INTANGIVEIS+RLP+EMP_FIN+EMP_FIN_LP+EBIT+EBITDA+LUB+DFC_IR_CSLL_PAGOS+ACIONISTA(TOTAL,PERCENT,1,)+ACIONISTA(ON,PERCENT,1,)&enviar_email=0&enviar_email_log=0&transpor=0&op01=tabela&oculta_cabecalho_sup=0&relat_alias_automatico=cmd_alias_01&script=


Sem Tickers

https://www.comdinheiro.com.br/ComparaEmpresas001.php?&data_d=31122023&data_a=10/12/2024&trailing=12&conv=MIXED&c_c=consolidado%20preferencialmente&moeda=MOEDA_ORIGINAL&m_m=&n_c=2&f_v=1&papeis=02522+02762+02642+02339+02732+02561+02673+02674+02735+02344+02103+01785+08022+02639+02703+02743+02643+02647+02683+02412+02421+02651+02754+02767+02659+02741+02198+02200+02199+02197+02196+00135+02146+02592+02620+01677+02698+02586+01964+02737+02749+02393+01972+02731+01875+02769+02699+02483+02739+02688+02268+01571+02664+02619+01416+01667+02459+02557+02030+02032+02653+02747+02652+02710+02748+01637+00332+01674+02610+02634+02692+02353+02724+01854+02517+02706+02442+02443+02415+02414+02351+02386+02214+02226+02389+02685+02410+02241+02535+02383+02184+02388+02746+02019+02742+02663+02658+02039+02413+02758+02759+02753+02272+02207+02729+02392+00468+02734+02615+02680+02474+02766+02726+01895+02697+01421+02358+02745+02190+02687+02281+02694+02689+02534+02590+00557+02193+01899+02486+02458+02755+02434+02627+02445+02448+02764+02667+01534+02670+02538+02542+02433+02297+02181+01570+02752+01479+02669+02337+02750+02532+02721+02616+02660+01485+02733+02567+02656+02646+02577+02690+02672+02256+01786+02175+02725+02599+09000+01858+02081+01936+02115+02244+02563+02618+02355+02738+02736+02300+02493+02368+02367+02488+02481+02650+02637+02671+01626+00345+00874+02258+02661+02632+02582+02152+02498+02509+02708+02470+02362+02695+02666+02641+02722+02704+02328+02514+01468+02744+02530+02164+02720+00952+02761+02760+02352+00971+02346+02681+02323+02756+02696+02763+02768+02757+02765+02572+02562+02714+02316+02635+02648+01793+02713+02354+01918+01959+01519+02338+02541+01056+02678+01430+01624+02701+02707+02395+02406+02676+02332+01540+01985+02625+02709+02222+02665+02044+02524+02623+02682+02408+02519+02719+02686+02716+02155+02630+02543+02494+02702+02476+02640+02691+02292+02560+02254+02751+02705+02120+02718+02723+02585+01574+01655+02711+02000+02360+02597+01592+02028+00542+01487+01995+01230+02082+00817+01163+01288+01274+01191+00694+01236+00222+01795+00027+00166+00284+00898+01838+01820+01679+01256+00074+01246+00123+00137+00381+01323+01566+01657+01558+00723+01254+00855+01406+01740+00359+00006+01441+01294+00483+00552+01456+01902+00979+01039+01824+02029+00968+01967+01756+01753+02147+01750+01647+01690+01971+01645+02128+01774+01834+01567+01856+00328+01557+01212+01497+00753+01363+00890+01735+02086+01932+01842+01228+01900+02138+02131+00964+01514+01675+01739+01681+01659+01494+01527+02010+02129+01966+00182+01469+02059+02069+02073+02140+02122+01721+01409+02132+01475+01604+01728+01848+02058+02031+01666+02136+01873+02125+01978+02127+02042+02157+02189+00822+01917+02167+01928+00363+01513+08005+01772+02150+01504+02108+01919+00727+00214+02154+02092+01506+01203+01189+00193+00213+01301+01531+01292+00325+00352+00371+01555+00372+00387+01390+00447+01382+00481+00321+01779+00585+00589+01440+00639+00684+00738+00743+01267+00361+01064+00862+01608+00924+01752+01495+00949+00957+01706+00997+01600+00195+01106+01296+01170+01808+01863+02142+01980+02040+01950+01996+02166+02240+02224+01921+02252+02141+00587+01401+01914+02209+01949+00375+01946+02253+01568+02187+01898+00597+01963+01737+02206+02229+02262+02041+01704+01993+01924+01891+02210+01887+00706+01405+02228+02105+00985+01892+02153+01561+00120+01940+02270+02215+02271+02246+02274+02219+02232+01958+02211+01669+01160+02046+01890+02231+02296+02273+02275+02264+02158+02220+02007+02290+02178+02156+01979+02180+02321+02311+02325+02340+01969+02195+01584+02203+02310+01954+01975+00669+02169+01516+01689+02336+01286+01937+01778+01997+01867+02186+02237+02365+02366+02364+01960+02299+02378+01874+01938+08010+02050+02334+00411+02291+02312+02319+02283+02289+02307+02304+02288+02308+02302+02305+02023+01981+01589+02165+02397+02402+02309+02160+02282+02403+02293+01951+01989+02375+01935+02204+01379+02400+01952+01759+01511+02333+01871+01970+02223+00695+02287+02432+02263+02038+02341+02419+02424+02137+02391+02183+02441+02407+02320+02450+02295+01986+01974+02110+02185+02266+01984+02182+02363+01573+02387+00172+01994+01565+02461+02265+02467+02463+02055+02067+01922+02444+01957+01901+01285+02437+02285+02394+02343+02465+02457+02013+02168+02485+01915+00459+02430+02404+01512+02613+02151+01998+01149+02428+00159+01492+02374+02473+02497+02335+02601+02631+02521+02472+02451+02452+02559+02502+02526+02626+02505+02489+02248+02356+02276+02162+02596+02515+02390+01840+02479+02022+02468+02453+02684+02369+02227+02399+02675+02677+02645+02594+02581+02649+02531+02294+02657+02668+01502+01508+02566+02436+02536+02455+02216+02573+02192+02621+02464+02622+01947+02174+02370+02239+02225+02604+02376+02280+01828+02633+02629+02611+02456+02477+02102+02242+02347+01942+02107+02693+02636+02301+02170+00124+02679+02313+02447+01823+02306+01843+02712+02638+01855+02449+02401+01582+01496+02654+02286+02655+01461+02730+02380+02727+02385+02384+02208&indic=INFO_EMPRESA(CNPJ)+INFO_EMPRESA(RAZ_SOC)+INFO_EMPRESA(DT_CONST)+DATA_REGISTRO+DIVIDA_LIQUIDA+DIVIDA_BRUTA+AT+RB+RL+DVA_RECEITA_VENDAS_MERC_PROD_SERV+CONTAS_A_RECEBER+IMOBILIZADO+DEPRE_AMOR+MARKET_VALUE+FCI+FCF+FCO+AC+CAIXA_E_EQUIVALENTES+PC+PNC+IMP_LUCRO+IMP_LUCRO_CORRENTE+DVA_IMP_TAXAS_CONTRIB_ESTADUAIS+DVA_IMP_TAXAS_CONTRIB_FEDERAIS+DVA_IMP_TAXAS_CONTRIB_MUNICIPAIS+DVA_VALOR_TOTAL_A_DISTRIBUIR+RESULTADO_ANTES_TRIB+PL+PESQUISA_DESENVOLVIMENTO+PROP_PARA_INVESTIMENTOS+LL+SEGMENTO+SETOR+SETOR_COMDINHEIRO+EMP_FIN_CP+IR_E_CONTRIB_SOCIAL_A_PAGAR+INTANGIVEL+IND_GOVERNANCA(CNPJ_AUD,,,)+IND_GOVERNANCA(NOME_AUD,,,)+IND_GOVERNANCA(QME_ADM,,,)+IND_GOVERNANCA(QME_FISCAL,,,)+IND_GOVERNANCA(QMI_ADM,,,)+IND_GOVERNANCA(QMT_ADM,,,)+IND_GOVERNANCA(QMT_DIRETORIA,,,)+IND_GOVERNANCA(QMT_FISCAL,,,)+CLIENTES+ESTOQUES+INTANGIVEIS+RLP+EMP_FIN+EMP_FIN_LP+EBIT+EBITDA+LUB+DFC_IR_CSLL_PAGOS+ACIONISTA(TOTAL,PERCENT,1,)+ACIONISTA(ON,PERCENT,1,)&enviar_email=0&enviar_email_log=0&transpor=0&op01=tabela&oculta_cabecalho_sup=0&relat_alias_automatico=cmd_alias_01&script=


## Importando Dados da ComDinheiro

Base ComDinheiro 2007 a 2023

Obs1: 2007 a 2009 é para calcular variáveis defasadas, se precisar.

Obs2: as colunas das variáveis foram renomeadas dentro de cada planilha exportada da ComDinheiro para facilitar o tratamento dos dados.

### Com Tickers

```{r}
library(readxl)
tickers_2007 <- read_excel("Com Tickers/tickers_2007.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2008 <- read_excel("Com Tickers/tickers_2008.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2009 <- read_excel("Com Tickers/tickers_2009.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2010 <- read_excel("Com Tickers/tickers_2010.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2011 <- read_excel("Com Tickers/tickers_2011.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2012 <- read_excel("Com Tickers/tickers_2012.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2013 <- read_excel("Com Tickers/tickers_2013.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2014 <- read_excel("Com Tickers/tickers_2014.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2015 <- read_excel("Com Tickers/tickers_2015.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2016 <- read_excel("Com Tickers/tickers_2016.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2017 <- read_excel("Com Tickers/tickers_2017.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2018 <- read_excel("Com Tickers/tickers_2018.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2019 <- read_excel("Com Tickers/tickers_2019.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2020 <- read_excel("Com Tickers/tickers_2020.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2021 <- read_excel("Com Tickers/tickers_2021.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2022 <- read_excel("Com Tickers/tickers_2022.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
tickers_2023 <- read_excel("Com Tickers/tickers_2023.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))

```


### Sem Tickers

```{r}
library(readxl)
semtickers_2007 <- read_excel("Sem Tickers/semtickers_2007.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2008 <- read_excel("Sem Tickers/semtickers_2008.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2009 <- read_excel("Sem Tickers/semtickers_2009.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2010 <- read_excel("Sem Tickers/semtickers_2010.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2011 <- read_excel("Sem Tickers/semtickers_2011.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2012 <- read_excel("Sem Tickers/semtickers_2012.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2013 <- read_excel("Sem Tickers/semtickers_2013.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2014 <- read_excel("Sem Tickers/semtickers_2014.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2015 <- read_excel("Sem Tickers/semtickers_2015.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2016 <- read_excel("Sem Tickers/semtickers_2016.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2017 <- read_excel("Sem Tickers/semtickers_2017.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2018 <- read_excel("Sem Tickers/semtickers_2018.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2019 <- read_excel("Sem Tickers/semtickers_2019.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2020 <- read_excel("Sem Tickers/semtickers_2020.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2021 <- read_excel("Sem Tickers/semtickers_2021.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2022 <- read_excel("Sem Tickers/semtickers_2022.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))
semtickers_2023 <- read_excel("Sem Tickers/semtickers_2023.xlsx", 
    col_types = c("text", "text", "text", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text", 
        "text", "numeric", "numeric", "numeric", 
        "text", "text", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "text", "text", "text", 
        "text", "text", "numeric", "text"))

```

## Juntando as bases

Ticker e Sem Tickers

```{r}
dados_semPAS <- rbind(tickers_2007, tickers_2008, tickers_2009, tickers_2010, tickers_2011, tickers_2012, tickers_2013, tickers_2014, tickers_2015, tickers_2016, tickers_2017, tickers_2018, tickers_2019, tickers_2020, tickers_2021, tickers_2022, tickers_2023, semtickers_2007, semtickers_2008, semtickers_2009, semtickers_2010, semtickers_2011, semtickers_2012, semtickers_2013, semtickers_2014, semtickers_2015, semtickers_2016, semtickers_2017, semtickers_2018, semtickers_2019, semtickers_2020, semtickers_2021, semtickers_2022, semtickers_2023)
```


## Importando planilhas de Reapresentações, PAS e Acordos

```{r}
# Importação das novas planilhas
base_final_pas_acordos <- read_excel("C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Base_final_PAS_e_Acordos_definitiva.xlsx")
base_reapresentacoes <- read_excel("C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/base_reapresentacoes.xlsx")

```



```{r}
basepascontabil <- base_final_pas_acordos %>%
  dplyr::select("TICKER", "ANO", "Contabil_PAS")
```


## Renomeando coluna Ano na base dados_semPAS

```{r}
dados_semPAS <- dados_semPAS %>%
  dplyr::rename(ANO=65)
```


```{r}
# Juntar as bases considerando TICKER ou CNPJ
resultado <- dados_semPAS %>%
  left_join(base_final_pas_acordos, by = c("TICKER", "ANO")) %>%
  left_join(base_reapresentacoes, by = c("TICKER", "ANO"))
```

```{r}
summary(resultado)
```

## Substituir NA por 0 nas colunas PAS e Reapresentacao

```{r}
resultado$PAS[is.na(resultado$PAS)] <- 0
resultado$Reapresentacao[is.na(resultado$Reapresentacao)] <- 0
```

```{r}
summary(resultado)
```


## Exportando o frame "resultados" para excel na pasta (para deixar salvo o arquivo consolidado)

```{r}
library("openxlsx")
caminho_arquivo_excel <- "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/resultado.xlsx"
write.xlsx(resultado, caminho_arquivo_excel)
```

## Ordenando as colunas/variáveis

Para as colunas 1 e 2 serem TICKER e ANO

```{r}
resultado <- resultado %>%
  dplyr::select(1,65,2:90)
```

# Criando as Variáveis

## Dependentes

As variáveis das Reapresentações e PAS foram criadas na própria planilha da coleta.

Colocando zeros nas colunas dos tipos de PAS e Reapresentações para as estatísticas descritivas.

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    Culpado_PAS = if_else(is.na(Culpado_PAS), 0, Culpado_PAS),
    Quanti_PAS = if_else(is.na(Quanti_PAS), 0, Quanti_PAS),
    Quali_PAS = if_else(is.na(Quali_PAS), 0, Quali_PAS),
    Contábil_PAS = if_else(is.na(Contábil_PAS), 0, Contábil_PAS),
    Financeiro_PAS = if_else(is.na(Financeiro_PAS), 0, Financeiro_PAS),
    Outros_PAS = if_else(is.na(Outros_PAS), 0, Outros_PAS),
    Qtd_Reapr = if_else(is.na(Qtd_Reapr), 0, Qtd_Reapr),
    RE = if_else(is.na(RE), 0, RE),
    RC = if_else(is.na(RC), 0, RC),
    Quali_Reapr = if_else(is.na(Quali_Reapr), 0, Quali_Reapr),
    Quanti_Reapr = if_else(is.na(Quanti_Reapr), 0, Quanti_Reapr),
    Contábil_Reapr = if_else(is.na(Contábil_Reapr), 0, Contábil_Reapr),
    Financeiro_Reapr = if_else(is.na(Financeiro_Reapr), 0, Financeiro_Reapr),
    Outros_Reapr = if_else(is.na(Outros_Reapr), 0, Outros_Reapr)
  )
```

### PAS_2

Dummy que assume valor zero a partir do primeiro PAS e zero para os demais.

A partir do primeiro ano em que a empresa teve PAS, a PAS_2 assume valor 1 para os anos subsequentes.

```{r}
# Criar a variável PAS_2 na base "resultado"
resultado <- resultado %>%
  # Garantir que PAS não tenha valores ausentes
  dplyr::mutate(PAS = ifelse(is.na(PAS), 0, PAS)) %>%
  
  # Identificar o primeiro ano de PAS por TICKER
  group_by(TICKER) %>%
  dplyr::mutate(
    # Determinar o primeiro ano em que PAS == 1
    primeiro_ano_PAS = ifelse(PAS == 1, min(ANO[PAS == 1], na.rm = TRUE), NA),
    # Preencher o primeiro ano para todas as linhas do TICKER
    primeiro_ano_PAS = min(primeiro_ano_PAS, na.rm = TRUE)
  ) %>%
  ungroup() %>%
  
  # Criar a variável PAS_2
  dplyr::mutate(
    PAS_2 = ifelse(ANO >= primeiro_ano_PAS & !is.na(primeiro_ano_PAS), 1, 0)
  )

```

```{r}
table(resultado$PAS_2)
```

### PAS_3

Dummy com empresas que se envolveram em  PAS por motivos contábeis pelo menos uma vez (1) e que nunca se envolveram (0).

A partir do primeiro ano em que a empresa teve Contábil_PAS, a PAS_3 assume valor 1 para os anos subsequentes.

```{r}
### PAS_3
# Criar a variável PAS_3 na base "resultado"
resultado <- resultado %>%
  # Garantir que Contábil_PAS não tenha valores ausentes
  dplyr::mutate(Contábil_PAS = ifelse(is.na(Contábil_PAS), 0, Contábil_PAS)) %>%
  
  # Identificar o primeiro ano de Contábil_PAS por TICKER
  group_by(TICKER) %>%
  dplyr::mutate(
    # Determinar o primeiro ano em que Contábil_PAS == 1
    primeiro_ano_Contábil_PAS = ifelse(Contábil_PAS == 1, min(ANO[Contábil_PAS == 1], na.rm = TRUE), NA),
    # Preencher o primeiro ano para todas as linhas do TICKER
    primeiro_ano_Contábil_PAS = min(primeiro_ano_Contábil_PAS, na.rm = TRUE)
  ) %>%
  ungroup() %>%
  
  # Criar a variável PAS_2
  dplyr::mutate(
    PAS_3 = ifelse(ANO >= primeiro_ano_Contábil_PAS & !is.na(primeiro_ano_Contábil_PAS), 1, 0)
  )

```

```{r}
table(resultado$PAS_3)
```


### Verificando se tem valor 1 em cada coluna

```{r}
any(dados$Culpado_PAS == 1, na.rm = TRUE)  # Verifica para Culpado_PAS
any(dados$Quanti_PAS == 1, na.rm = TRUE)  # Verifica para Quanti_PAS
any(dados$Quali_PAS == 1, na.rm = TRUE)   # Verifica para Quali_PAS
any(dados$Contábil_PAS == 1, na.rm = TRUE) # Verifica para Contábil_PAS
any(dados$Financeiro_PAS == 1, na.rm = TRUE) # Verifica para Financeiro_PAS
any(dados$Outros_PAS == 1, na.rm = TRUE)  # Verifica para Outros_PAS
any(dados$Qtd_Reapr == 1, na.rm = TRUE)   # Verifica para Qtd_Reapr
any(dados$RE == 1, na.rm = TRUE)          # Verifica para RE
any(dados$RC == 1, na.rm = TRUE)          # Verifica para RC
any(dados$Quali_Reapr == 1, na.rm = TRUE) # Verifica para Quali_Reapr
any(dados$Quanti_Reapr == 1, na.rm = TRUE) # Verifica para Quanti_Reapr
any(dados$Contábil_Reapr == 1, na.rm = TRUE) # Verifica para Contábil_Reapr
any(dados$Financeiro_Reapr == 1, na.rm = TRUE) # Verifica para Financeiro_Reapr
any(dados$Outros_Reapr == 1, na.rm = TRUE) # Verifica para Outros_Reapr

```


## Independentes de Interesse

### Verificando número de observações

```{r}
# Contar o total de observações na coluna, incluindo NAs
n_RB <- sum(!is.na(resultado$RB))

# Exibir o resultado
print(n_RB)
```

```{r}
# Contar o total de observações na coluna, incluindo NAs
n_RL <- sum(!is.na(resultado$RL))

# Exibir o resultado
print(n_RL)
```


```{r}
# Contar o total de observações na coluna, incluindo NAs
n_RECEITAS_DVA <- sum(!is.na(resultado$RECEITAS_DVA))

# Exibir o resultado
print(n_RECEITAS_DVA)
```


### Criando coluna RECEITA para monitoramento

Motivo: onde tiver NA na Receita Bruta, será substituída pelo valor da Receita Líquida.

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    RECEITA = RB,
    RECEITA = ifelse(is.na(RECEITA), RL, RECEITA))
```

### Criando coluna RECEITA_DVA para monitoramento

Motivo: onde tiver NA na RECEITAS_DVA, será substituída pelo valor da Receita Líquida.

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    RECEITA_DVA = RECEITAS_DVA,
    RECEITA_DVA = ifelse(is.na(RECEITAS_DVA), RL, RECEITAS_DVA))
```

### MONIT_TRIB (Diferenciado e Especial, considerando o valor da Receita Bruta informado, em caso de NA, Receita Líquida)

Dummy que assume valor 1 para empresas que foram submetidas ao monitoramento de Grandes Contribuintes, 0 caso contrário, de acordo com os critérios anuais do Monitoramento de Grandes Contribuintes

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    # Dummy para regime Diferenciado
    MONIT_TRIB_DIF = case_when(
      (ANO == 2010 & RECEITA > 90000000 & RECEITA < 400000000) ~ 1,
      (ANO == 2011 & RECEITA > 100000000 & RECEITA < 450000000) ~ 1,
      (ANO == 2012 & RECEITA > 120000000 & RECEITA < 500000000) ~ 1,
      (ANO == 2013 & RECEITA > 135000000 & RECEITA < 560000000) ~ 1,
      (ANO == 2014 & RECEITA > 150000000 & RECEITA < 900000000) ~ 1,
      (ANO == 2015 & RECEITA > 165000000 & RECEITA < 1000000000) ~ 1,
      (ANO == 2016 & RECEITA > 180000000 & RECEITA < 1100000000) ~ 1,
      (ANO == 2017 & RECEITA > 200000000 & RECEITA < 1200000000) ~ 1,
      (ANO == 2018 & RECEITA > 200000000 & RECEITA < 1200000000) ~ 1,
      (ANO == 2019 & RECEITA > 250000000 & RECEITA < 1000000000) ~ 1,
      (ANO == 2020 & RECEITA > 250000000 & RECEITA < 1000000000) ~ 1,
      (ANO == 2021 & RECEITA > 250000000 & RECEITA < 1000000000) ~ 1,
      (ANO == 2022 & RECEITA > 300000000 & RECEITA < 2000000000) ~ 1,
      (ANO == 2023 & RECEITA > 340000000 & RECEITA < 2000000000) ~ 1,
      TRUE ~ 0
    ),
    # Dummy para regime Especial
    MONIT_TRIB_ESP = case_when(
      (ANO == 2010 & RECEITA > 400000000) ~ 1,
      (ANO == 2011 & RECEITA > 450000000) ~ 1,
      (ANO == 2012 & RECEITA > 500000000) ~ 1,
      (ANO == 2013 & RECEITA > 560000000) ~ 1,
      (ANO == 2014 & RECEITA > 900000000) ~ 1,
      (ANO == 2015 & RECEITA > 1000000000) ~ 1,
      (ANO == 2016 & RECEITA > 1100000000) ~ 1,
      (ANO == 2017 & RECEITA > 1200000000) ~ 1,
      (ANO == 2018 & RECEITA > 1200000000) ~ 1,
      (ANO == 2019 & RECEITA > 1000000000) ~ 1,
      (ANO == 2020 & RECEITA > 1000000000) ~ 1,
      (ANO == 2021 & RECEITA > 2000000000) ~ 1,
      (ANO == 2022 & RECEITA > 2000000000) ~ 1,
      (ANO == 2023 & RECEITA > 2000000000) ~ 1,
      TRUE ~ 0
    ),
    # Dummy para regime Geral
    MONIT_TRIB_GERAL = ifelse(MONIT_TRIB_DIF == 1 | MONIT_TRIB_ESP == 1, 1, 0)
  )
```


```{r}
summary(resultado$MONIT_TRIB_DIF)
summary(resultado$MONIT_TRIB_ESP)
summary(resultado$MONIT_TRIB_GERAL)
```


### MONIT_TRIB_GERAL_DVA (Diferenciado e Especial, levando em considerações RECEITAS DA DVA, em caso de NA, Receita Líquida)

Dummy que assume valor 1 para empresas que foram submetidas ao monitoramento de Grandes Contribuintes, 0 caso contrário, de acordo com os critérios anuais do Monitoramento de Grandes Contribuintes

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    # Dummy para regime Diferenciado
    MONIT_TRIB_DIF_DVA = case_when(
      (ANO == 2010 & RECEITA_DVA > 90000000 & RECEITA_DVA < 400000000) ~ 1,
      (ANO == 2011 & RECEITA_DVA > 100000000 & RECEITA_DVA < 450000000) ~ 1,
      (ANO == 2012 & RECEITA_DVA > 120000000 & RECEITA_DVA < 500000000) ~ 1,
      (ANO == 2013 & RECEITA_DVA > 135000000 & RECEITA_DVA < 560000000) ~ 1,
      (ANO == 2014 & RECEITA_DVA > 150000000 & RECEITA_DVA < 900000000) ~ 1,
      (ANO == 2015 & RECEITA_DVA > 165000000 & RECEITA_DVA < 1000000000) ~ 1,
      (ANO == 2016 & RECEITA_DVA > 180000000 & RECEITA_DVA < 1100000000) ~ 1,
      (ANO == 2017 & RECEITA_DVA > 200000000 & RECEITA_DVA < 1200000000) ~ 1,
      (ANO == 2018 & RECEITA_DVA > 200000000 & RECEITA_DVA < 1200000000) ~ 1,
      (ANO == 2019 & RECEITA_DVA > 250000000 & RECEITA_DVA < 1000000000) ~ 1,
      (ANO == 2020 & RECEITA_DVA > 250000000 & RECEITA_DVA < 1000000000) ~ 1,
      (ANO == 2021 & RECEITA_DVA > 250000000 & RECEITA_DVA < 1000000000) ~ 1,
      (ANO == 2022 & RECEITA_DVA > 300000000 & RECEITA_DVA < 2000000000) ~ 1,
      (ANO == 2023 & RECEITA_DVA > 340000000 & RECEITA_DVA < 2000000000) ~ 1,
      TRUE ~ 0
    ),
    # Dummy para regime Especial
    MONIT_TRIB_ESP_DVA = case_when(
      (ANO == 2010 & RECEITA_DVA > 400000000) ~ 1,
      (ANO == 2011 & RECEITA_DVA > 450000000) ~ 1,
      (ANO == 2012 & RECEITA_DVA > 500000000) ~ 1,
      (ANO == 2013 & RECEITA_DVA > 560000000) ~ 1,
      (ANO == 2014 & RECEITA_DVA > 900000000) ~ 1,
      (ANO == 2015 & RECEITA_DVA > 1000000000) ~ 1,
      (ANO == 2016 & RECEITA_DVA > 1100000000) ~ 1,
      (ANO == 2017 & RECEITA_DVA > 1200000000) ~ 1,
      (ANO == 2018 & RECEITA_DVA > 1200000000) ~ 1,
      (ANO == 2019 & RECEITA_DVA > 1000000000) ~ 1,
      (ANO == 2020 & RECEITA_DVA > 1000000000) ~ 1,
      (ANO == 2021 & RECEITA_DVA > 2000000000) ~ 1,
      (ANO == 2022 & RECEITA_DVA > 2000000000) ~ 1,
      (ANO == 2023 & RECEITA_DVA > 2000000000) ~ 1,
      TRUE ~ 0
    ),
    # Dummy para regime Geral
    MONIT_TRIB_GERAL_DVA = ifelse(MONIT_TRIB_DIF_DVA == 1 | MONIT_TRIB_ESP_DVA == 1, 1, 0)
  )
```


```{r}
summary(resultado$MONIT_TRIB_DIF_DVA)
summary(resultado$MONIT_TRIB_ESP_DVA)
summary(resultado$MONIT_TRIB_GERAL_DVA)
```



### Criando variável para grupo de tratamento

Dummy que assume valor 1 caso alguma empresa tenha entrado no monitoramento diferenciado e/ou especial entre o período de 2010 e 2023, e 0 para empresas que nunca entraram no monitoramento de grandes contribuintes.

```{r}
resultado <- resultado %>%
  dplyr::group_by(TICKER) %>%  # Agrupa os dados por empresa
  dplyr::mutate(
    TRATAMENTO = if_else(any(MONIT_TRIB_GERAL == 1, na.rm = TRUE), 1, 0)
  ) %>%
  dplyr::ungroup()
```

```{r}
resultado <- resultado %>%
  dplyr::group_by(TICKER) %>%  # Agrupa os dados por empresa
  dplyr::mutate(
    TRATAMENTO_DVA = if_else(any(MONIT_TRIB_GERAL_DVA == 1, na.rm = TRUE), 1, 0)
  ) %>%
  dplyr::ungroup()
```


### Lei 13506/2017

Vigência a partir de Novembro/2017

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    Lei13506t = ifelse(ANO >= 2017, 1, 0) # 1 para anos 2017 a 2023, 0 para anos 2010 a 2016
  )

```

### MONIT_TRAT (running variable)

Será considerada a RECEITA.

```{r}
na_por_variavel <- colSums(is.na(resultado))

# Exibir o resultado
print(na_por_variavel)
```


## Independentes de Controle

### Controles Primeira Parte

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    ENDIV = (PC + PNC)/AT, # Endividamento
    ALAV = DIV_BRUTA/PL, # Alavancagem
    INTCAP = IMOB/AT, # Intensidade de Capital
    ESTOQUE = ESTOQUES/AT, # Estoques
    ROA = LL/AT, # ROA
    TAM = log(AT), # Tamanho da Empresa
    MTB = MARKET_VALUE/PL, # Market-to-book
    INTANGIVEL = INTANG/AT, # Intangível
    PL_NEG = ifelse(PL < 0, 1, 0), # Patrimônio Líquido Negativo
    CAIXA = FCO/AT, # Fluxo de Caixa Operacional
    PREJUIZO = ifelse(LL < 0, 1, 0), # Prejuízo 
    ADM_IND = (QMI_ADM/QMT_ADM), # Percentual Membros Independentes do Conselho de Administração
    ADM_EXT = (QME_ADM/QMT_ADM), # Percentual Membros Externos do Conselho de Administração
    FIS_EXT = ifelse(QMT_FIS > 0, 1, 0), # Percentual Membros Externos do Conselho Fiscal
    ADM_DIR = (QMT_DIR/QMT_ADM), # Percentual Diretores do Conselho de Administração
    MAIOR_IND_ADM = ifelse(QMI_ADM > QMT_ADM/2, 1, 0), # Maior Independência do Conselho de Administração
    ACIO1_TOTAL = ifelse(PER_ACIO1_TOTAL >= 50, 1, 0), # Concentração Acionária Acionista 1 (Ações ON e PN)
    ACIO1_ON = ifelse(PER_ACIO1_ON >= 50, 1, 0), # Concentração Acionária Acionista 1 (Açõe ON)
    RTT = ifelse(ANO >= 2010 & ANO <= 2014, 1, 0), # Regime Tributário Transitório
    COVID = ifelse(ANO == 2020, 1,
                   ifelse(ANO == 2021, 1, 0)), # Covid-19
    SEG = recode_factor(SEGMENTO, 
                             "BALCÃO" = "TRAD",
                             "BDR NIVEL 2" = "TRAD",
                             "BDR NIVEL 3" = "TRAD",
                             "BOLSA" = "TRAD",
                             "BOVESPA MAIS" = "TRAD",
                             "Não Classificado" = "TRAD",
                             "BOVESPA NIVEL 1" = "N1",
                             "BOVESPA NIVEL 2" = "N2",
                             "NOVO MERCADO" = "NM",
                             "nd" = "NA",
                             .ordered = TRUE), # Segmento
    LCS = ifelse(FCO<0 & FCI<0 & FCF>0, "Birth",
                      ifelse(FCO>0 & FCI<0 & FCF>0, "Growth",
                             ifelse(FCO>0 & FCI<0 & FCF<0, "Mature",
                                    ifelse(FCO<0 & FCI<0 & FCF<0, "ShakeOut",
                                           ifelse(FCO>0 & FCI>0 & FCF>0, "ShakeOut",
                                                  ifelse(FCO>0 & FCI>0 & FCF<0, "ShakeOut",
                                                         ifelse(FCO<0 & FCI>0 & FCF>0, "Decline",
                                                                ifelse(FCO<0 & FCI>0 & FCF<0, "Decline", NA)))))))), # Ciclo de Vida
                      #ordenar e recodificar variáveis string
                      LCS = recode_factor(LCS,"Birth" = "Introducao",
                                          "Growth" = "Crescimento",
                                          "Mature" = "Maturidade",
                                          "ShakeOut" = "Turbulencia",
                                          "Decline" = "Declinio", .ordered = T))
    

```

### Idade da Empresa

```{r}
# Carregar pacotes necessários
library(dplyr)
library(lubridate)

# Definir a data de referência como 31/12/2023
DATA_REFERENCIA <- as.Date("2023-12-31")

# Exemplo de como calcular a idade da empresa considerando a data de encerramento
resultado <- resultado %>%
  dplyr::mutate(
    # Garantir que DATA_REG seja convertida corretamente
    DATA_REG = as.Date(DATA_REG, format = "%d/%m/%Y"),  # Aqui corrigimos para "dia/mês/ano"
    
    # Garantir que DTA_ENC seja convertida corretamente para o formato Date
    DTA_ENC = as.Date(DTA_ENC, format = "%d/%m/%Y"),  # Também para "dia/mês/ano"
    
    # Calcular a idade da empresa
    IDADE = case_when(
      DATA_REG > as.Date("2024-01-01") ~ NA_real_,  # Se a empresa foi registrada em 2024 ou depois, a idade será NA
      is.na(DTA_ENC) ~ as.numeric(difftime(DATA_REFERENCIA, DATA_REG, units = "days")) / 365,  # Usa DATA_REFERENCIA se a empresa não foi encerrada
      TRUE ~ as.numeric(difftime(DTA_ENC, DATA_REG, units = "days")) / 365  # Caso contrário, usa a DATA_ENC
    )
  )

# Verificar os resultados
head(resultado$IDADE)

```


### Controle Big 4

```{r}
# Renomear a coluna 'NOME_AUD' para 'NOMEAUD'
resultado <- resultado %>%
  dplyr::rename(NOMEAUD = NOME_AUD)
```



```{r}
resultado <- resultado %>%
  dplyr::mutate_at(c("NOMEAUD"), ~replace(., is.na(.), "NAUD")) %>%
  dplyr::mutate(AUD = ifelse(grepl("NAUD",NOMEAUD), "NAUD",
                            ifelse(grepl("KPMG", NOMEAUD), "KPMG",
                                  ifelse(grepl("kpmg", NOMEAUD), "KPMG",
                                        ifelse(grepl("Kpmg", NOMEAUD), "KPMG", 
                                              ifelse(grepl("EY", NOMEAUD), "EY",
                                                    ifelse(grepl("Ey", NOMEAUD), "EY",
                                                          ifelse(grepl("ey", NOMEAUD), "EY",
                                                                ifelse(grepl("ERNST", NOMEAUD), "EY",
                                                                      ifelse(grepl("ernst", NOMEAUD), "EY",
                                                                             ifelse(grepl("deloitte", NOMEAUD), "DTT",
                                                                                     ifelse(grepl("deloite", NOMEAUD), "DTT",
                                                                                             ifelse(grepl("DELOITTE", NOMEAUD), "DTT",
                                                                                                    ifelse(grepl("DELOITE", NOMEAUD), "DTT",
                                                                                                          ifelse(grepl("Delloite", NOMEAUD), "DTT",
                                                                                                                  ifelse(grepl("pwc", NOMEAUD), "PWC", 
                                                                                                                          ifelse(grepl("PWC", NOMEAUD), "PWC", 
                                                                                                                                  ifelse(grepl("Pwc", NOMEAUD), "PWC", 
                                                                                                                                          ifelse(grepl("WATERHOUSE", NOMEAUD), "PWC", 
                                                                                                                                                  ifelse(grepl("PwC", NOMEAUD), "PWC", 
                                                                                                                                                          ifelse(grepl("Waterhouse", NOMEAUD), "PWC", 
                                                                                                                                                                  ifelse(grepl("waterhouse", NOMEAUD), "PWC", 
                                                                                                                                                                         ifelse(grepl("delloitte", NOMEAUD), "DTT",
                                                                                                                                                                                ifelse(grepl("Ernst", NOMEAUD), "EY",
                                                                                                                                                                                       ifelse(grepl("Deloitte", NOMEAUD), "DTT","NBIG4")))))))))))))))))))))))),
         BIG4 = ifelse(grepl("KPMG",AUD), 1,
                            ifelse(grepl("EY", AUD), 1,
                                  ifelse(grepl("DTT", AUD), 1,
                                        ifelse(grepl("PWC", AUD), 1, 
                                              ifelse(grepl("NBIG4", AUD), 0, NA)))))
         
  ) %>%
  dplyr::mutate(
    AUD = recode_factor(AUD,
                        "NAUD" = "NAUD",
                        "NBIG4" = "NBIG4",
                        "DTT" = "DTT",
                        "EY" = "EY",
                        "KPMG" = "KPMG",
                        "PWC" = "PWC",
                        .ordered = TRUE)
  )
         
         

```

```{r}
summary(resultado$AUD)
```


### Controle Crescimento de Vendas

```{r}
resultado <- resultado %>%
  dplyr::arrange(TICKER, ANO) %>% # Ordenar por empresa (TICKER) e ano (ANO)
  dplyr::group_by(TICKER) %>%     # Agrupar por empresa
  dplyr::mutate(
    diffVENDAS = (RL - dplyr::lag(RL)) / dplyr::lag(RL) * 100 # Calcular a variação percentual
  ) %>%
  ungroup() # Desagrupar os dados

```


```{r}
unique(dados_logit$AUD)
```


### Controle Accruals Discricionários

#### Criando as variáveis para o cálculo dos Accruals Discricionários

##### Criando Base para AEM

```{r}
#Removendo dados duplicados
Base_AEM <- resultado %>%
  distinct(TICKER, ANO, .keep_all = TRUE)

#Verificando os nomes das variáveis
variable.names(Base_AEM)

#Verificando missings
apply(apply(Base_AEM,2,is.na),2,sum)

```



```{r}
unique(Base_AEM$SETOR)
```


##### Excluindo as observações sem informações do setor financeiro

```{r}
Base_AEM <- Base_AEM %>%
  ungroup() %>%
  dplyr::filter(!SETOR %in% c("Financeiro", "Financeiro e Outros", "Não classificado", "nd", "Outros", "Não Classificado"))
```

```{r}
unique(Base_AEM$SETOR)
```


##### Criando as variáveis do modelo
  
```{r}
Base_AEM <- Base_AEM %>%
  group_by(TICKER) %>%
  dplyr::mutate(DifCA = NA,                     #Criando a variação do AC
                DifCA = ifelse(is.na(DifCA), diff(AC), DifCA),
                DifCA = ifelse(is.na(DifCA), 0, DifCA),
                DifCASHE = NA,                  #Criando a variação do Disponivel
                DifCASHE = ifelse(is.na(DifCASHE), diff(CAIXA_EQUIV), DifCASHE),
                DifCASHE = ifelse(is.na(DifCASHE), 0, DifCASHE),
                DifCL = NA,                     #Criando a variação do PC
                DifCL = ifelse(is.na(DifCL), diff(PC), DifCL),
                DifCL = ifelse(is.na(DifCL), 0, DifCL),
                DifLFST = NA,                   #Criando a variação do Empréstimo de Curto Prazo
                DifLFST = ifelse(is.na(DifLFST), diff(EMPR_FIN_CP), DifLFST),
                DifLFST = ifelse(is.na(DifLFST), 0, DifLFST),
                DifTaxPay = NA,                 #Criando a variação da impostos a pagar
                DifTaxPay = ifelse(is.na(DifTaxPay), diff(IMP_PAGAR), DifTaxPay),
                DifTaxPay = ifelse(is.na(DifTaxPay), 0, DifTaxPay),
                DifRev = NA,                    #Criando a variação da receita
                DifRev = ifelse(is.na(DifRev), (diff(RB)/dplyr::lag(AT)), DifRev),
                DifRev = ifelse(is.na(DifRev), 0, DifRev),
                DifRevRec = NA,                 #Criando a variação da receita menos var.a receber
                DifRevRec = ifelse(is.na(DifRevRec), ((DifRev - diff(CONTAS_RECEBER))/dplyr::lag(AT)), DifRevRec),
                DifRevRec = ifelse(is.na(DifRevRec), 0, DifRevRec),
                DEPREC_DFC = ifelse(is.na(DEPREC_DFC), 0, DEPREC_DFC),
                AccT = NA,                      #Criando os accruals totais (Jones)
                AccT = ifelse(is.na(AccT),((DifCA - DifCASHE - (DifCL - DifLFST - DifTaxPay) - DEPREC_DFC)/dplyr::lag(AT)), AccT),
                A = 1/dplyr::lag(AT),           #Criando a inversa do ativo total
                ppe = NA,                       #Criando a variavel PPE
                ppe = ifelse(is.na(ppe), (PROP_INV/dplyr::lag(AT)), ppe),
                ppe = ifelse(is.na(ppe), 0, ppe),
                roa = ROA,         #criando a variável ROA
                roa = NA,
                lag_roa = dplyr::lag(ROA)/AT) %>%
  ungroup()
```


#### Winsorizando as variáveis dos modelos para AEM

```{r}
install.packages("DescTools")
library(DescTools)
```


```{r}
# Função para winsorizar uma variável
winsorize <- function(x, lower_percentile = 0.01, upper_percentile = 0.99) {
  if (all(is.na(x))) return(x)  # Retorna como está se todos os valores forem NA
  if (!is.numeric(x)) return(x)  # Retorna como está se não for numérica
  lower <- quantile(x, lower_percentile, na.rm = TRUE)
  upper <- quantile(x, upper_percentile, na.rm = TRUE)
  pmin(pmax(x, lower), upper)
}

# Criar novas colunas com dados winsorizados
Base_AEM <- Base_AEM %>%
  dplyr::mutate(across(
    all_of(c("AccT", "A", "DifRev", "DifRevRec", "ppe", "lag_roa")),  # Passa um vetor de colunas
    ~winsorize(.),
    .names = "{.col}_win"  # Adiciona o sufixo "_win" às novas colunas
  ))

```



#### Criando nova base para os Accruals

```{r}
Base_AEM_2 <- Base_AEM 
```

```{r}
#Verificando os nomes das variáveis
variable.names(Base_AEM_2)
```

## Criando nova base, com as colunas necessárias

TICKER, ANO, SETOR, AccT_win, A_win, DifRev_win, DifRevRec_win, ppe_win, lag_woa_win

```{r}
Base_AEM_2 <- Base_AEM %>%
  dplyr::select(1,2,36,140:145)                    #Selecionando as variáveis de interesse
```



#### Excluindo as observações com NA, NaN e Inf

```{r}
Base_AEM_2 <- Base_AEM_2 %>%
  filter_all(all_vars(!is.infinite(.))) %>%
  na.omit()
```


#### Fonte dos procedimentos: https://r4ds.had.co.nz/many-models.html

```{r}
summary(Base_AEM_2)
```

#### KLW


##### Aninhando a base de dados dados

```{r}
KLW <- Base_AEM_2 %>%
  group_by(SETOR, ANO) %>%
  nest()
```


##### Visualizando a base aninhada

```{r}
view(KLW)
```


##### Visualizando um conjunto de dados aninhados

```{r}
KLW$data[[1]]
```


##### Criando a função para estimar os modelos

```{r}
modgr_klw <- function(df) {
  lm(AccT_win ~ A_win + DifRevRec_win + ppe_win + lag_roa_win, data = df)
}
```


##### Estimando os modelos por setor/ano

```{r}
modelos <- map(KLW$data, modgr_klw)
```


##### Criando a variável com o modelo na base aninhada

```{r}
KLW <- KLW %>%
  dplyr::mutate(modelo = map(data, modgr_klw))
```


##### Ordenando a base aninhada por setor ano

```{r}
KLW <- KLW %>%
  dplyr::arrange(SETOR, ANO)
```


##### Criando a variável resíduos com o modelo na base aninhada

```{r}
KLW <- KLW %>%
 dplyr:: mutate(residuos = purrr::map2(data,
                       modelo,
                       add_residuals))
```


##### Gerando a base sem aninhamento

```{r}
Base_KLW_final <- unnest(KLW, residuos)
```


##### Winsorizando os resíduos em 1%

```{r}
# Carregar pacotes necessários
library(dplyr)

# Lista de variáveis a serem winsorizadas
variaveis <- c(
  "resid"
)

# Função para winsorizar uma variável
winsorize <- function(x, lower_percentile = 0.01, upper_percentile = 0.99) {
  if (all(is.na(x))) return(x)  # Retorna como está se todos os valores forem NA
  if (!is.numeric(x)) return(x)  # Retorna como está se não for numérica
  lower <- quantile(x, lower_percentile, na.rm = TRUE)
  upper <- quantile(x, upper_percentile, na.rm = TRUE)
  pmin(pmax(x, lower), upper)
}

# Verificar se as variáveis existem na base
variaveis_existentes <- variaveis[variaveis %in% colnames(Base_KLW_final)]

# Criar novas colunas com dados winsorizados
Base_KLW_final <- Base_KLW_final %>%
  dplyr::mutate(across(
    all_of(variaveis_existentes),
    ~winsorize(.),
    .names = "DA_KLW_w1"  
  ))

# Verificar resultado
summary(Base_KLW_final)
```



### Juntando GR na base

Selecionando: ANO, TICKER, w1

```{r}
Base_KLW <- Base_KLW_final %>%
  dplyr::select(1,5,13) 

resultado <- resultado %>%
  dplyr::left_join(Base_KLW, by = c("TICKER", "ANO"))

summary(resultado)
```


## Criando as variáveis de Agressividade (seção Análises de Robustez)

### Multiplicando por -1 as variáveis IMP_LUCRO, IMP_LUCRO_COR e IMP_LUCRO_PAGOS

Para poder calcular as proxies de ETR, CETR, ETR_LONG e CTRIB corretamente.

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    IMP_LUCRO = IMP_LUCRO*(-1),
    IMP_LUCRO_COR = IMP_LUCRO_COR*(-1),
    IMP_LUCRO_PAGOS = IMP_LUCRO_PAGOS*(-1)
  )
```

### Criando as variáveis contínuas de Agressividade

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    ETR = IMP_LUCRO / LAIR, 
    CETR = IMP_LUCRO_COR / LAIR, 
    # Definindo DVA_IMP_TAXAS_CONTRIB como a soma dos tributos
    DVA_IMP_TAXAS_CONTRIB = TRIB_EST_DVA + TRIB_FED_DVA + TRIB_MUN_DVA,
    # Calculando CTRIB usando a soma de tributos sobre o valor adicionado bruto
    CTRIB = DVA_IMP_TAXAS_CONTRIB / VAB_DVA
  )
```


#### ETRLong

```{r}
unique(resultado$ANO)
```


```{r}
colnames(resultado)
```


```{r}
resultado <- resultado %>%
  group_by(TICKER) %>%
  dplyr::mutate(
    IMP_LUCRO2 = ifelse(is.na(IMP_LUCRO), mean(IMP_LUCRO, na.rm = TRUE), IMP_LUCRO),
    LAIR2 = ifelse(is.na(LAIR), mean(LAIR, na.rm = TRUE), LAIR)
  ) %>%
  ungroup()
```


```{r}
library(dplyr)
library(zoo)  # Certifique-se de carregar o pacote zoo para usar rollapply

# Calculando o ETRLONGit
resultado <- resultado %>%
  dplyr::arrange(TICKER, ANO) %>%  # Ordenar por empresa (TICKER) e ano (ANO)
  dplyr::group_by(TICKER) %>%  # Agrupar por empresa
  dplyr::mutate(
    # Calcular o somatório de 3 anos para Impostos Totais e LAIR
    IMP_3anos = zoo::rollapply(IMP_LUCRO2, width = 3, FUN = sum, fill = NA, align = "right"),
    LAIR_3anos = zoo::rollapply(LAIR2, width = 3, FUN = sum, fill = NA, align = "right"),
    # Calcular o ETRLONGit como razão dos somatórios
    ETR_LONG = ifelse(LAIR_3anos != 0, IMP_3anos / LAIR_3anos, NA)
  ) %>%
  dplyr::ungroup()

# Verificando as primeiras linhas com o cálculo de ETRLONGit
summary(resultado$ETR_LONG)

resultado <- resultado %>%
  dplyr::mutate(ETR = IMP_LUCRO2/LAIR2)

```


```{r}
# Carregar pacotes necessários
library(dplyr)

# Lista de variáveis a serem winsorizadas
variaveis1 <- c(
  "ETR_LONG", "ETR"
)

# Função para winsorizar uma variável
winsorize <- function(x, lower_percentile = 0.01, upper_percentile = 0.99) {
  if (all(is.na(x))) return(x)  # Retorna como está se todos os valores forem NA
  if (!is.numeric(x)) return(x)  # Retorna como está se não for numérica
  lower <- quantile(x, lower_percentile, na.rm = TRUE)
  upper <- quantile(x, upper_percentile, na.rm = TRUE)
  pmin(pmax(x, lower), upper)
}

# Verificar se as variáveis existem na base
variaveis_existentes1 <- variaveis1[variaveis1 %in% colnames(resultado)]

# Criar novas colunas com dados winsorizados
resultado <- resultado %>%
  dplyr::mutate(across(
    all_of(variaveis_existentes1),
    ~winsorize(.),
    .names = "{.col}_w1"  # Adiciona prefixo "_w1" às novas colunas
  ))



```

```{r}
resultado <- resultado %>%
  # Agrupar por setor e ano
  dplyr::group_by(SETOR.x, ANO) %>%
  dplyr::mutate(
    # Calcular medianas para cada métrica
    mediana_ETR = median(ETR, na.rm = TRUE),
    # Dummies de Maior Agressividade para cada métrica
    MAIOR_ETR = ifelse(ETR < mediana_ETR, 1, 0),
  ) %>%
  # Remover agrupamento
  dplyr::ungroup()
```



```{r}
resultado <- resultado %>%
  # Agrupar por setor e ano
  dplyr::group_by(SETOR.x, ANO) %>%
  dplyr::mutate(
    # Calcular medianas para cada métrica
    mediana_ETR_LONG = median(ETR_LONG, na.rm = TRUE),
    # Dummies de Maior Agressividade para cada métrica
    MAIOR_ETR_LONG = ifelse(ETR_LONG < mediana_ETR_LONG, 1, 0),
  ) %>%
  # Remover agrupamento
  dplyr::ungroup()
```


```{r}
dadosETRlong <- resultado %>%
  dplyr::select("TICKER", "ANO", "ETR_LONG_w1", "MAIOR_ETR_LONG", "ETR_w1", "CETR_w1", "CTRIB_w1", "MAIOR_ETR", "MAIOR_CETR", "MAIOR_CTRIB")
```





```{r}
library(dplyr)

# Realizando o left join das variáveis da base "resultado" na base "dados_logit"
dados_logit <- dados_logit %>%
  left_join(dadosETRlong, by = c("TICKER", "ANO"))

# Resumo da base para verificar possíveis valores ausentes
summary(dados_logit)

```








### Ajustando os sinais das proxies de Agressividade Tributária

```{r}
resultado <- resultado %>%
  dplyr::mutate(
    ETR = ifelse(IMP_LUCRO>0 & LAIR<0, (ETR*(-1))+1,ETR),
    CETR = ifelse(IMP_LUCRO_COR>0 & LAIR<0, (CETR*(-1))+1,CETR),
    ETR_LONG = ifelse(IMP_LUCRO_PAGOS>0 & LAIR<0, (ETR_LONG*(-1))+1,ETR_LONG),
    CTRIB = ifelse(DVA_IMP_TAXAS_CONTRIB>0 & VAB_DVA<0, (CTRIB*(-1))+1,CTRIB))
         
```

### Criando a dummy de Maior Agressividade

```{r}
resultado <- resultado %>%
  # Agrupar por setor e ano
  dplyr::group_by(SETOR.x, ANO) %>%
  dplyr::mutate(
    # Calcular medianas para cada métrica
    mediana_ETR = median(ETR, na.rm = TRUE),
    mediana_CETR = median(CETR, na.rm = TRUE),
    mediana_ETR_LONG = median(ETR_LONG, na.rm = TRUE),
    mediana_CTRIB = median(CTRIB, na.rm = TRUE),
    # Dummies de Maior Agressividade para cada métrica
    MAIOR_ETR = ifelse(ETR < mediana_ETR, 1, 0),
    MAIOR_CETR = ifelse(CETR < mediana_CETR, 1, 0),
    MAIOR_ETR_LONG = ifelse(ETR_LONG < mediana_ETR_LONG, 1, 0),
    MAIOR_CTRIB = ifelse(CTRIB < mediana_CTRIB, 1, 0)
  ) %>%
  # Remover agrupamento
  dplyr::ungroup()

# Visualizar as primeiras linhas do resultado
head(resultado)

```



```{r}
summary(resultado)
```



# Criando variáveis Winsorizadas

### Winsorização 1%

Foram desconsideradas as colunas das variáveis dos accruals discricionários, pois já haviam sido winsorizadas e incorporadas à base de dados.

```{r}
# Carregar pacotes necessários
library(dplyr)

# Lista de variáveis a serem winsorizadas
variaveis <- c(
  "ENDIV", "ALAV", "INTCAP", "ESTOQUE", "ROA", "TAM", "MTB", "INTANGIVEL", "CAIXA", "ADM_IND", "ADM_EXT", "ADM_DIR", "IDADE", "diffVENDAS", "ETR", "CETR", "ETR_LONG", "CTRIB"
)

# Função para winsorizar uma variável
winsorize <- function(x, lower_percentile = 0.01, upper_percentile = 0.99) {
  if (all(is.na(x))) return(x)  # Retorna como está se todos os valores forem NA
  if (!is.numeric(x)) return(x)  # Retorna como está se não for numérica
  lower <- quantile(x, lower_percentile, na.rm = TRUE)
  upper <- quantile(x, upper_percentile, na.rm = TRUE)
  pmin(pmax(x, lower), upper)
}

# Verificar se as variáveis existem na base
variaveis_existentes <- variaveis[variaveis %in% colnames(resultado)]

# Criar novas colunas com dados winsorizados
resultado <- resultado %>%
  dplyr::mutate(across(
    all_of(variaveis_existentes),
    ~winsorize(.),
    .names = "{.col}_w1"  # Adiciona prefixo "_w1" às novas colunas
  ))

# Verificar resultado
summary(resultado)
```


## Criando nova base

```{r}
dados <- resultado
```


## Verificando os nomes das colunas

```{r}
#Verificando os nomes das variáveis
variable.names(dados)
```

# Excluir SETOR.y, CNPJ.y

```{r}
library(dplyr)

# Excluir a coluna SETOR.y
dados <- dados %>%
  dplyr::select(-SETOR.y,-CNPJ.y)

```

## Verificando os nomes das colunas

```{r}
#Verificando os nomes das variáveis
variable.names(dados)
```


# Renomeando colunas

```{r}
library(dplyr)

# Renomear as colunas
dados <- dados %>%
  dplyr::rename(SETOR = SETOR.x)
```



## Verificando os Setores

```{r}
unique(dados$SETOR)
```


## Excluindo Setores 

Não Classificado
Financeiros e Outros
Financeiro
NA
nd
Outros

```{r}
library(dplyr)

# Filtrando para excluir setores indesejados
dados <- dados %>%
  dplyr::filter(
    !(
      grepl("Não Classificado|Financeiro|Financeiro e Outros|Outros", SETOR, ignore.case = TRUE) | # Excluir padrões
      is.na(SETOR) |                      # Excluir valores NA
      SETOR == "nd"                      # Excluir valores "nd"
    )
  )

# Verificando os setores restantes
unique(dados$SETOR)

```

## Conferindo os nomes da base dados

```{r}
names(dados)
```

## Avaliando NAs

```{r}
apply(apply(dados,2,is.na),2,sum)
```


# Boxplots e Histogramas das Variáveis Contínuas

```{r}
# Boxplot para ENDIV
boxplot(dados$ENDIV_w1, main = "Boxplot de ENDIV_w1", ylab = "Valor")
# Histogramas para ENDIV
hist(dados$ENDIV_w1, main = "Histograma de ENDIV_w1", xlab = "Valor", col = "lightblue", border = "black")


```


```{r}
# Boxplot para ALAV
boxplot(dados$ALAV_w1, main = "Boxplot de ALAV_w1", ylab = "Valor")
# Histogramas para ALAV
hist(dados$ALAV_w1, main = "Histograma de ALAV_w1", xlab = "Valor", col = "lightcoral", border = "black")
```


```{r}
# Boxplot para INTCAP
boxplot(dados$INTCAP_w1, main = "Boxplot de INTCAP_w1", ylab = "Valor")
# Histogramas para INTCAP
hist(dados$INTCAP_w1, main = "Histograma de INTCAP_w1", xlab = "Valor", col = "lightyellow", border = "black")

```


```{r}
# Boxplot para ESTOQUE
boxplot(dados$ESTOQUE_w1, main = "Boxplot de ESTOQUE_w1", ylab = "Valor")

# Histogramas para ESTOQUE
hist(dados$ESTOQUE_w1, main = "Histograma de ESTOQUE_w1", xlab = "Valor", col = "lightpink", border = "black")

```


```{r}
# Boxplot para ROA
boxplot(dados$ROA_w1, main = "Boxplot de ROA_w1", ylab = "Valor")

# Histogramas para ROA
hist(dados$ROA_w1, main = "Histograma de ROA_w1", xlab = "Valor", col = "lightskyblue", border = "black")

```


```{r}
# Boxplot para TAM
boxplot(dados$TAM_w1, main = "Boxplot de TAM_w1", ylab = "Valor")

# Histogramas para TAM
hist(dados$TAM_w1, main = "Histograma de TAM_w1", xlab = "Valor", col = "lightseagreen", border = "black")

```


```{r}
# Boxplot para MTB
boxplot(dados$MTB_w1, main = "Boxplot de MTB_w1", ylab = "Valor")

# Histogramas para MTB
hist(dados$MTB_w1, main = "Histograma de MTB_w1", xlab = "Valor", col = "lightgoldenrodyellow", border = "black")

```


```{r}
# Boxplot para INTANGIVEL
boxplot(dados$INTANGIVEL_w1, main = "Boxplot de INTANGIVEL_w1", ylab = "Valor")

# Histogramas para INTANGIVEL
hist(dados$INTANGIVEL_w1, main = "Histograma de INTANGIVEL_w1", xlab = "Valor", col = "lightgray", border = "black")

```


```{r}
# Boxplot para CAIXA
boxplot(dados$CAIXA_w1, main = "Boxplot de CAIXA_w1", ylab = "Valor")

# Histogramas para CAIXA
hist(dados$CAIXA_w1, main = "Histograma de CAIXA_w1", xlab = "Valor", col = "lightblue", border = "black")

```


```{r}
# Boxplot para ADM_IND
boxplot(dados$ADM_IND_w1, main = "Boxplot de ADM_IND_w1", ylab = "Valor")

# Histogramas para ADM_IND
hist(dados$ADM_IND_w1, main = "Histograma de ADM_IND_w1", xlab = "Valor", col = "lightgreen", border = "black")

```


```{r}
# Boxplot para ADM_EXT
boxplot(dados$ADM_EXT_w1, main = "Boxplot de ADM_EXT_w1", ylab = "Valor")

# Histogramas para ADM_EXT
hist(dados$ADM_EXT_w1, main = "Histograma de ADM_EXT_w1", xlab = "Valor", col = "lightcoral", border = "black")

```

```{r}
# Boxplot para ADM_DIR
boxplot(dados$ADM_DIR_w1, main = "Boxplot de ADM_DIR_w1", ylab = "Valor")

# Histogramas para ADM_DIR
hist(dados$ADM_DIR_w1, main = "Histograma de ADM_DIR_w1", xlab = "Valor", col = "lightblue", border = "black")

```



```{r}
# Boxplot para IDADE
boxplot(dados$IDADE_w1, main = "Boxplot de IDADE_w1", ylab = "Valor")

# Histogramas para IDADE
hist(dados$IDADE_w1, main = "Histograma de IDADE_w1", xlab = "Valor", col = "lightseagreen", border = "black")

```


```{r}
# Boxplot para diffVENDAS
boxplot(dados$diffVENDAS_w1, main = "Boxplot de diffVENDAS_w1", ylab = "Valor")

# Histogramas para diffVENDAS
hist(dados$diffVENDAS_w1, main = "Histograma de diffVENDAS_w1", xlab = "Valor", col = "lightgray", border = "black")

```



```{r}
# Boxplot para DA_KLW
boxplot(dados$DA_KLW_w1, main = "Boxplot de DA_KLW_w1", ylab = "Valor")

# Histogramas para DA_KLW
hist(dados$DA_KLW_w1, main = "Histograma de DA_KLW_w1", xlab = "Valor", col = "lightcoral", border = "black")


```

```{r}
# Boxplot para ETR
boxplot(dados$ETR_w1, main = "Boxplot de ETR_w1", ylab = "Valor")

# Histogramas para ETR
hist(dados$ETR_w1, main = "Histograma de ETR_w1", xlab = "Valor", col = "lightgreen", border = "black")


```


```{r}
# Boxplot para CETR
boxplot(dados$CETR_w1, main = "Boxplot de CETR_w1", ylab = "Valor")

# Histogramas para CETR
hist(dados$CETR_w1, main = "Histograma de CETR_w1", xlab = "Valor", col = "lightyellow", border = "black")


```


```{r}
# Boxplot para ETR_LONG
boxplot(dados$ETR_LONG_w1, main = "Boxplot de ETR_LONG_w1", ylab = "Valor")

# Histogramas para ETR_LONG
hist(dados$ETR_LONG_w1, main = "Histograma de ETR_LONG_w1", xlab = "Valor", col = "lightseagreen", border = "black")


```

```{r}
# Boxplot para CTRIB
boxplot(dados$CTRIB_w1, main = "Boxplot de CTRIB_w1", ylab = "Valor")

# Histogramas para CTRIB
hist(dados$CTRIB_w1, main = "Histograma de CTRIB_w1", xlab = "Valor", col = "lightseagreen", border = "black")


```


# Estatísticas Descritivas

ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG)

### Geral

```{r}
library(dplyr)
library(flextable)
library(officer)
```


```{r}
dados_logit %>%
  dplyr::select(ROA_w1, ENDIV_w1, TAM_w1, diffVENDAS_w1, MTB_w1, CAIXA_w1, IDADE_w1, DA_KLW_w1, INTANGIVEL_w1, ETR_w1, CETR_w1, ETR_LONG_w1, CTRIB_w1, PREJUIZO, AUD, RTT, LCS, COVID, MAIOR_IND_ADM, ACIO1_TOTAL, SEG, Lei13506t, MONIT_TRIB_DIF, MONIT_TRIB_ESP, MONIT_TRIB_GERAL, TRATAMENTO, MAIOR_ETR, MAIOR_CETR, MAIOR_ETR_LONG, MAIOR_CTRIB, Reapresentacao, Quanti_Reapr, Contábil_Reapr, Financeiro_Reapr, Qtd_Reapr, PAS, PAS_2, Quanti_PAS, Contábil_PAS, Financeiro_PAS, Culpado_PAS) %>%
  gtsummary::tbl_summary(statistic = list(all_continuous() ~ "{median}, {mean} ({sd})",
                                          all_categorical() ~ "{n} ({p}%)"),
                         digits = all_continuous() ~ 3,
                         missing = "no", #ifany = mostra missing se tiver missing, always = quant. de missing na variável
                         missing_text = "Missing") %>%
  add_n() %>% # Adicionando coluna de não missing
  modify_header(label ~ "**Variables**") %>%
  modify_caption("Descriptive statistics") %>%
  italicize_levels() %>%
  as_flex_table() %>%
  save_as_docx("Tab2", path = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Estatistica desc geral.docx")
```









### MONIT_TRIB_GERAL

```{r}
dados_logit %>%
  dplyr::select(ROA_w1, ENDIV_w1, TAM_w1, diffVENDAS_w1, MTB_w1, CAIXA_w1, IDADE_w1, DA_KLW_w1, INTANGIVEL_w1, ETR_w1, CETR_w1, ETR_LONG_w1, CTRIB_w1, Reapresentacao, Quanti_Reapr, Contábil_Reapr, Financeiro_Reapr, Qtd_Reapr, PAS, PAS_2, Quanti_PAS, Contabil_PAS, Financeiro_PAS, Culpado_PAS, MONIT_TRIB_DIF, MONIT_TRIB_ESP, MONIT_TRIB_GERAL, Lei13506t, MAIOR_ETR, MAIOR_CETR, MAIOR_ETR_LONG, MAIOR_CTRIB, PREJUIZO, AUD, RTT, LCS, COVID, MAIOR_IND_ADM, ACIO1_TOTAL, SEG) %>%
  dplyr::mutate(MONIT_TRIB_GERAL = factor(MONIT_TRIB_GERAL, labels = c("0", "1"))) %>%
  gtsummary::tbl_summary(by = MONIT_TRIB_GERAL,
                         statistic = list(all_continuous() ~ "{median}, {mean} ({sd})",
                                          all_categorical() ~ "{n} ({p}%)"),
                         digits = all_continuous() ~ 3,
                         missing = "no", #ifany = mostra missing se tiver missing, always = quant. de missing na variável
                         missing_text = "Missing") %>%
  add_n() %>% # Adicionando coluna de não missing
  add_p(list(all_continuous() ~ "t.test",
             all_categorical() ~ "kruskal.test")) %>%
  modify_header(label ~ "**Variables**") %>%
  modify_caption("Descriptive statistics") %>%
  italicize_levels() %>%
  bold_p() %>%
  as_flex_table() %>%
  save_as_docx("Tab2", path = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/1-Est desc Monit Trib Geral1.docx")
```





### Lei 13506/2017

```{r}
dados_logit %>%
  dplyr::select(ROA_w1, ENDIV_w1, TAM_w1, diffVENDAS_w1, MTB_w1, CAIXA_w1, IDADE_w1, DA_KLW_w1, INTANGIVEL_w1, ETR_w1, CETR_w1, ETR_LONG_w1, CTRIB_w1, Reapresentacao, Quanti_Reapr, Contábil_Reapr, Financeiro_Reapr, Qtd_Reapr, PAS, PAS_2, Quanti_PAS, Contabil_PAS, Financeiro_PAS, Culpado_PAS, MONIT_TRIB_DIF, MONIT_TRIB_ESP, MONIT_TRIB_GERAL, Lei13506t, MAIOR_ETR, MAIOR_CETR, MAIOR_ETR_LONG, MAIOR_CTRIB, PREJUIZO, AUD, RTT, LCS, COVID, MAIOR_IND_ADM, ACIO1_TOTAL, SEG) %>%
  dplyr::mutate(Lei13506t = factor(Lei13506t, labels = c("0", "1"))) %>%
  gtsummary::tbl_summary(by = Lei13506t,
                         statistic = list(all_continuous() ~ "{median}, {mean} ({sd})",
                                          all_categorical() ~ "{n} ({p}%)"),
                         digits = all_continuous() ~ 3,
                         missing = "no", #ifany = mostra missing se tiver missing, always = quant. de missing na variável
                         missing_text = "Missing") %>%
  add_n() %>% # Adicionando coluna de não missing
  add_p(list(all_continuous() ~ "t.test",
             all_categorical() ~ "kruskal.test")) %>%
  modify_header(label ~ "**Variables**") %>%
  modify_caption("Descriptive statistics") %>%
  italicize_levels() %>%
  bold_p() %>%
  as_flex_table() %>%
  save_as_docx("Tab2", path = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/2-Est desc Lei1.docx")
```







### Reapresentação

```{r}
library(flextable)
library(gtsummary)
library(dplyr)
```






```{r}
dados_logit %>%
  dplyr::select(ROA_w1, ENDIV_w1, TAM_w1, diffVENDAS_w1, MTB_w1, CAIXA_w1, IDADE_w1, DA_KLW_w1, INTANGIVEL_w1, ETR_w1, CETR_w1, ETR_LONG_w1, CTRIB_w1, Reapresentacao, Quanti_Reapr, Contábil_Reapr, Financeiro_Reapr, Qtd_Reapr, PAS, PAS_2, Quanti_PAS, Contabil_PAS, Financeiro_PAS, Culpado_PAS, MONIT_TRIB_DIF, MONIT_TRIB_ESP, MONIT_TRIB_GERAL, Lei13506t, MAIOR_ETR, MAIOR_CETR, MAIOR_ETR_LONG, MAIOR_CTRIB, PREJUIZO, AUD, RTT, LCS, COVID, MAIOR_IND_ADM, ACIO1_TOTAL, SEG) %>%
  dplyr::mutate(Reapresentacao = factor(Reapresentacao, labels = c("0", "1"))) %>%
  gtsummary::tbl_summary(by = Reapresentacao,
                         statistic = list(all_continuous() ~ "{median}, {mean} ({sd})",
                                          all_categorical() ~ "{n} ({p}%)"),
                         digits = all_continuous() ~ 3,
                         missing = "no", #ifany = mostra missing se tiver missing, always = quant. de missing na variável
                         missing_text = "Missing") %>%
  add_n() %>% # Adicionando coluna de não missing
  add_p(list(all_continuous() ~ "t.test",
             all_categorical() ~ "kruskal.test")) %>%
  modify_header(label ~ "**Variables**") %>%
  modify_caption("Descriptive statistics") %>%
  italicize_levels() %>%
  bold_p() %>%
  as_flex_table() %>%
  save_as_docx("Tab2", path = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/4-Est desc Reapr1.docx")
```

### PAS

```{r}
dados_logit %>%
  dplyr::select(ROA_w1, ENDIV_w1, TAM_w1, diffVENDAS_w1, MTB_w1, CAIXA_w1, IDADE_w1, DA_KLW_w1, INTANGIVEL_w1, ETR_w1, CETR_w1, ETR_LONG_w1, CTRIB_w1, Reapresentacao, Quanti_Reapr, Contábil_Reapr, Financeiro_Reapr, Qtd_Reapr, PAS, PAS_2, Quanti_PAS, Contabil_PAS, Financeiro_PAS, Outros_PAS, Culpado_PAS, MONIT_TRIB_DIF, MONIT_TRIB_ESP, MONIT_TRIB_GERAL, Lei13506t, MAIOR_ETR, MAIOR_CETR, MAIOR_ETR_LONG, MAIOR_CTRIB, PREJUIZO, AUD, RTT, LCS, COVID, MAIOR_IND_ADM, ACIO1_TOTAL, SEG) %>%
  dplyr::mutate(PAS = factor(PAS, labels = c("0", "1"))) %>%
  gtsummary::tbl_summary(by = PAS,
                         statistic = list(all_continuous() ~ "{median}, {mean} ({sd})",
                                          all_categorical() ~ "{n} ({p}%)"),
                         digits = all_continuous() ~ 3,
                         missing = "no", #ifany = mostra missing se tiver missing, always = quant. de missing na variável
                         missing_text = "Missing") %>%
  add_n() %>% # Adicionando coluna de não missing
  add_p(list(all_continuous() ~ "t.test",
             all_categorical() ~ "kruskal.test")) %>%
  modify_header(label ~ "**Variables**") %>%
  modify_caption("Descriptive statistics") %>%
  italicize_levels() %>%
  bold_p() %>%
  as_flex_table() %>%
  save_as_docx("Tab2", path = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/5-Est desc PAS1.docx")
```








# Correlacao

```{r função de correlação, echo=TRUE, message=FALSE, warning=FALSE, echo=TRUE, paged.print=FALSE}
## Construir função


corstars <-function(x, method=c("pearson", "spearman"), removeTriangle=c("upper", "lower"),
                     result=c("none", "html", "latex")){
    #Compute correlation matrix
    require(Hmisc)
    x <- as.matrix(x)
    correlation_matrix<-rcorr(x, type=method[1])
    R <- correlation_matrix$r # Matrix of correlation coeficients
    p <- correlation_matrix$P # Matrix of p-value 
    
    ## Define notions for significance levels; spacing is important.
    mystars <- ifelse(p < .0001, "****", ifelse(p < .001, "*** ", ifelse(p < .01, "**  ", ifelse(p < .05, "*   ", "    "))))
    
    ## trunctuate the correlation matrix to two decimal
    R <- format(round(cbind(rep(-1.11, ncol(x)), R), 2))[,-1]
    
    ## build a new matrix that includes the correlations with their apropriate stars
    Rnew <- matrix(paste(R, mystars, sep=""), ncol=ncol(x))
    diag(Rnew) <- paste(diag(R), " ", sep="")
    rownames(Rnew) <- colnames(x)
    colnames(Rnew) <- paste(colnames(x), "", sep="")
    
    ## remove upper triangle of correlation matrix
    if(removeTriangle[1]=="upper"){
      Rnew <- as.matrix(Rnew)
      Rnew[upper.tri(Rnew, diag = TRUE)] <- ""
      Rnew <- as.data.frame(Rnew)
    }
    
    ## remove lower triangle of correlation matrix
    else if(removeTriangle[1]=="lower"){
      Rnew <- as.matrix(Rnew)
      Rnew[lower.tri(Rnew, diag = TRUE)] <- ""
      Rnew <- as.data.frame(Rnew)
    }
    
    ## remove last column and return the correlation matrix
    Rnew <- cbind(Rnew[1:length(Rnew)-1])
    if (result[1]=="none") return(Rnew)
    else{
      if(result[1]=="html") print(xtable(Rnew), type="html")
      else print(xtable(Rnew), type="latex") 
    }
} 
```

```{r}
summary(dados_logit)
```

"ROA_w1", "ENDIV_w1", "TAM_w1", "diffVENDAS_w1", "MTB_w1", "CAIXA_w1", "IDADE_w1", "DA_KLW_w1", "INTANGIVEL_w1", "ETR_w1", "CETR_w1", "ETR_LONG_w1", "CTRIB_w1", "Reapresentacao", "Quanti_Reapr", "Contábil_Reapr", "Financeiro_Reapr", "Qtd_Reapr", "PAS", "PAS_2", "Quanti_PAS", "Contabil_PAS", "Financeiro_PAS", "Outros_PAS", "Culpado_PAS", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", "MONIT_TRIB_GERAL", "Lei13506t", "MAIOR_ETR", "MAIOR_CETR", "MAIOR_ETR_LONG", "MAIOR_CTRIB", "PREJUIZO", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG", "AUD"



### Gerar tabelas

```{r}
BaseCorr <- dados_logit %>%
  dplyr::select("Reapresentacao", "Quanti_Reapr", "Contábil_Reapr", "Financeiro_Reapr", "Qtd_Reapr", "PAS", "PAS_2", "Quanti_PAS", "Contabil_PAS", "Financeiro_PAS", "Outros_PAS", "Culpado_PAS", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", "MONIT_TRIB_GERAL", "Lei13506t", "ROA_w1", "ENDIV_w1", "TAM_w1", "diffVENDAS_w1", "MTB_w1", "CAIXA_w1", "IDADE_w1", "DA_KLW_w1", "INTANGIVEL_w1", "ETR_w1", "CETR_w1", "ETR_LONG_w1", "CTRIB_w1", , "MAIOR_ETR", "MAIOR_CETR", "MAIOR_ETR_LONG", "MAIOR_CTRIB", "PREJUIZO", "RTT", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "ANO") %>%
  filter_all(all_vars(!is.infinite(.))) %>%
  na.omit()
```  

"Reapresentacao", "Quanti_Reapr", "Contábil_Reapr", "Financeiro_Reapr", "Qtd_Reapr", "PAS", "PAS_2", "Quanti_PAS", "Contabil_PAS", "Financeiro_PAS", "Outros_PAS", "Culpado_PAS", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", "MONIT_TRIB_GERAL", "Lei13506t", "ROA_w1", "ENDIV_w1", "TAM_w1", "diffVENDAS_w1", "MTB_w1", "CAIXA_w1", "IDADE_w1", "DA_KLW_w1", "INTANGIVEL_w1", "ETR_w1", "CETR_w1", "ETR_LONG_w1", "CTRIB_w1", , "MAIOR_ETR", "MAIOR_CETR", "MAIOR_ETR_LONG", "MAIOR_CTRIB", "PREJUIZO", "RTT", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "ANO"



```{r}
summary(BaseCorr)
```

```{r}
install.packages("Hmisc")
install.packages("xtable")
```


```{r}
library(Hmisc)
library(xtable)


Matriz_Correlacao_Spearman <- corstars(BaseCorr,
                                       method = c("spearman"),
                                       removeTriangle = c("upper"),
                                       result = c("none", "html", "latex"))


library(writexl)
write_xlsx(Matriz_Correlacao_Spearman, "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Corr_spearman.xlsx")
```





```{r gerar output excel, echo=TRUE, message=FALSE, warning=FALSE, , echo=TRUE, paged.print=FALSE}
library(Hmisc)
library(xtable)

Matriz_Correlacao_Pearson <- corstars(BaseCorr,
                                      method = c("pearson"),
                                      removeTriangle = c("lower"),
                                      result = c("none", "html", "latex"))

Matriz_Correlacao_Spearman <- corstars(BaseCorr,
                                       method = c("spearman"),
                                       removeTriangle = c("upper"),
                                       result = c("none", "html", "latex"))


library(writexl)
write_xlsx(Matriz_Correlacao_Pearson,"C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Corr_pearson.xlsx")
write_xlsx(Matriz_Correlacao_Spearman, "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Corr_spearman.xlsx")

```


# Regressões

## Criando nova base

```{r}
dados_reapr <- dados %>%
  dplyr::select("TICKER", "ANO", "DATA_REG", "PAS", "PAS_2", "PAS_3", "Culpado_PAS", "Quanti_PAS", "Quali_PAS", "Contábil_PAS", "Financeiro_PAS", "Outros_PAS", 
  "Reapresentacao", "Qtd_Reapr", "RE", "RC", "Quali_Reapr", "Quanti_Reapr", "Contábil_Reapr", 
  "Financeiro_Reapr", "Outros_Reapr", "RECEITA", "RECEITA_DVA", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", 
  "MONIT_TRIB_GERAL", "MONIT_TRIB_DIF_DVA", "MONIT_TRIB_ESP_DVA", "MONIT_TRIB_GERAL_DVA", 
  "TRATAMENTO", "TRATAMENTO_DVA", "Lei13506t", "ENDIV_w1", "BIG4", "RTT", 
  "TAM_w1", "diffVENDAS_w1", "LCS", 
  "IDADE_w1", "MTB_w1", "PL_NEG", "ROA_w1", "COVID", 
  "SEG", "SETOR", "ACIO1_TOTAL", "ADM_IND_w1", "FIS_EXT", 
  "ADM_DIR_w1", "ADM_EXT_w1", "MAIOR_IND_ADM", "CAIXA_w1", 
  "INTANGIVEL_w1", "PREJUIZO", "AUD", "DA_KLW_w1", "ETR_w1", "CETR_w1", "ETR_LONG_w1", "CTRIB_w1", "MAIOR_ETR", "MAIOR_CETR", 
  "MAIOR_ETR_LONG", "MAIOR_CTRIB")

```


## Exportando planilha

```{r}
library("openxlsx")
caminho_arquivo_excel <- "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/dados_reapr.xlsx"
write.xlsx(dados_reapr, caminho_arquivo_excel)
```


## Verificando valores ausentes na base

```{r}
sum(is.na(dados$Reapresentacao))
sum(is.na(dados$PAS))
sum(is.na(dados$MONIT_TRIB_GERAL))
sum(is.na(dados$TRATAMENTO))
sum(is.na(dados$MONIT_TRIB_GERAL_DVA))
sum(is.na(dados$TRATAMENTO_DVA))
```


# Diferenças em diferenças (Adptado Script Callaway & Sant'anna)

### Carregar bibliotecas

Pacote DiD

```{r}
install.packages("did")
library("did")
```


### Verifique as duplicidades

```{r}
library(dplyr)

# Contar a quantidade de ocorrências por TICKER e ANO
duplicados <- dados_reapr %>%
  dplyr::group_by(TICKER, ANO) %>%
  dplyr::summarise(quantidade = n(), .groups = "drop") %>%
  dplyr::filter(quantidade > 1)

# Exibir os casos duplicados
print(duplicados)

```

```{r}
# Encontrar todas as linhas que fazem parte de duplicados
linhas_duplicadas <- dados_reapr %>%
  dplyr::group_by(TICKER, ANO) %>%
  dplyr::filter(n() > 1) %>%
  ungroup()

# Exibir as linhas duplicadas
print(linhas_duplicadas)
```

### Eliminar duplicados

```{r}
dados_reapr <- dados_reapr %>%
  distinct(TICKER, ANO, .keep_all = TRUE)
```




# Criando variáveis para DID

### TICKER_num 

Criando nova coluna TICKER como numérica, para passar no código DiD.

```{r}
dados_reapr$TICKER_num <- as.numeric(as.factor(dados_reapr$TICKER))
```
`

### PERIODO


```{r}
dados_reapr$ANO_num <- as.numeric(as.factor(dados_reapr$ANO))
```



### ANO_TRAT

Criando nova coluna, ANO_TRAT, para passar no código DiD, sendo que:

Exemplo: se uma empresa, em 2015, passou a ser grande contribuinte, de 2015 em diante os resultados aparecerão como "2015". Para os anos anteriores, é repetido o ano.

Criada a regra para aparecer o número do período (2007 = 1, 2008 = 2, e assim por diante)

```{r}
library(dplyr)
library(zoo)

dados_reapr <- dados_reapr %>%
  # Criar as dummies MONIT_TRIB_DIF e MONIT_TRIB_ESP
  dplyr::mutate(
    # Dummy para regime Diferenciado
    MONIT_TRIB_DIF = case_when(
      (ANO == 2010 & RECEITA > 90000000 & RECEITA < 400000000) ~ 1,
      (ANO == 2011 & RECEITA > 100000000 & RECEITA < 450000000) ~ 1,
      (ANO == 2012 & RECEITA > 120000000 & RECEITA < 500000000) ~ 1,
      (ANO == 2013 & RECEITA > 135000000 & RECEITA < 560000000) ~ 1,
      (ANO == 2014 & RECEITA > 150000000 & RECEITA < 900000000) ~ 1,
      (ANO == 2015 & RECEITA > 165000000 & RECEITA < 1000000000) ~ 1,
      (ANO == 2016 & RECEITA > 180000000 & RECEITA < 1100000000) ~ 1,
      (ANO == 2017 & RECEITA > 200000000 & RECEITA < 1200000000) ~ 1,
      (ANO == 2018 & RECEITA > 200000000 & RECEITA < 1200000000) ~ 1,
      (ANO == 2019 & RECEITA > 250000000 & RECEITA < 1000000000) ~ 1,
      (ANO == 2020 & RECEITA > 250000000 & RECEITA < 1000000000) ~ 1,
      (ANO == 2021 & RECEITA > 250000000 & RECEITA < 1000000000) ~ 1,
      (ANO == 2022 & RECEITA > 300000000 & RECEITA < 2000000000) ~ 1,
      (ANO == 2023 & RECEITA > 340000000 & RECEITA < 2000000000) ~ 1,
      TRUE ~ 0
    ),
    # Dummy para regime Especial
    MONIT_TRIB_ESP = case_when(
      (ANO == 2010 & RECEITA > 400000000) ~ 1,
      (ANO == 2011 & RECEITA > 450000000) ~ 1,
      (ANO == 2012 & RECEITA > 500000000) ~ 1,
      (ANO == 2013 & RECEITA > 560000000) ~ 1,
      (ANO == 2014 & RECEITA > 900000000) ~ 1,
      (ANO == 2015 & RECEITA > 1000000000) ~ 1,
      (ANO == 2016 & RECEITA > 1100000000) ~ 1,
      (ANO == 2017 & RECEITA > 1200000000) ~ 1,
      (ANO == 2018 & RECEITA > 1200000000) ~ 1,
      (ANO == 2019 & RECEITA > 1000000000) ~ 1,
      (ANO == 2020 & RECEITA > 1000000000) ~ 1,
      (ANO == 2021 & RECEITA > 2000000000) ~ 1,
      (ANO == 2022 & RECEITA > 2000000000) ~ 1,
      (ANO == 2023 & RECEITA > 2000000000) ~ 1,
      TRUE ~ 0
    ),
    # Dummy para regime Geral
    MONIT_TRIB_GERAL = ifelse(MONIT_TRIB_DIF == 1 | MONIT_TRIB_ESP == 1, 1, 0)
  ) %>%
  # Identificar o primeiro ano de monitoramento por empresa
  dplyr::group_by(TICKER) %>%
  dplyr::mutate(
    # Determinar o primeiro ano de monitoramento
    ANO_TRAT = ifelse(MONIT_TRIB_GERAL == 1, ANO, NA_real_),
    ANO_TRAT = min(ANO_TRAT, na.rm = TRUE)
  ) %>%
  # Propagar o primeiro ano de monitoramento para todos os anos da empresa
  dplyr::mutate(
    ANO_TRAT = ifelse(is.finite(ANO_TRAT), ANO_TRAT, NA_real_),  # Ajusta NA se necessário
    ANO_TRAT = zoo::na.locf(ANO_TRAT, na.rm = FALSE, fromLast = TRUE)  # Propaga para anos anteriores
  ) %>%
  dplyr::ungroup()

# Substituir valores NA em ANO_TRAT por 0 (caso a empresa nunca tenha entrado no monitoramento)
dados_reapr <- dados_reapr %>%
  dplyr::mutate(
    ANO_TRAT = ifelse(is.na(ANO_TRAT), 0, ANO_TRAT)
  )



```

### ANO_TRAT_num

```{r}
# Definir o mapeamento dos anos para os números de tratamento
anos_tratamento <- c(2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023)
numeros_tratamento <- 1:length(anos_tratamento)

# Criar um vetor de mapeamento entre ano de tratamento e número de tratamento
mapeamento_ano_trat <- setNames(numeros_tratamento, anos_tratamento)

# Aplicar o mapeamento na coluna ANO_TRAT
dados_reapr$ANO_TRAT_num <- ifelse(dados_reapr$ANO_TRAT == 0, 0, mapeamento_ano_trat[as.character(dados_reapr$ANO_TRAT)])

```



# Exportando planilha

```{r}
library("openxlsx")
caminho_arquivo_excel <- "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/dados_reapr.xlsx"
write.xlsx(dados_reapr, caminho_arquivo_excel)
```


# Pre-teste DiD

https://bcallaway11.github.io/did/articles/pre-testing.html

```{r}
# Exibir todos os nomes das colunas do dataframe
colnames(dados_att)
```

### Preparando base pre-teste


```{r}
# Modificar o conjunto de dados para incluir um estudo de eventos
#-----------------------------------------------------------------------------

# Gerar os *leads* (períodos antes do tratamento) e *lags* (períodos após o tratamento)
Dtl <- sapply(-(time.periods-1):(time.periods-2), function(l) {
    dtl <- 1 * ((dados_att$ANO_num == dados_att$ANO_TRAT_num + l) & (dados_att$ANO_TRAT_num > 0))
    dtl
})
Dtl <- as.data.frame(Dtl)
cnames1 <- paste0("Dtmin", (time.periods-1):1)
colnames(Dtl) <- c(cnames1, paste0("Dt", 0:(time.periods-2)))
dados_att_preteste <- cbind.data.frame(dados_att, Dtl)
row.names(dados_att_preteste) <- NULL

head(dados_att_preteste)
```

### Pre-teste Reapresentacao

```{r}
# Executar a regressão de estudo de eventos
#-------------------------------------------------------------------------------

# Carregar o pacote plm para modelagem de dados em painel
library(plm)

# Rodar a regressão de estudo de eventos
# Normaliza o efeito do período pré-tratamento para ser 0
es <- plm(Reapresentacao ~ Dtmin3 + Dtmin2 + Dt0 + Dt1 + Dt2, 
          data = dados_att_preteste, model = "within", effect = "twoways",
          index = c("TICKER_num", "ANO_num"))

summary(es)
```


#### Preparação dos Dados para o Gráfico Reapresentacao

```{r}
# Algumas configurações para ajustar o gráfico
# Adiciona um coeficiente igual a 0 no tempo do evento -1
coefs1 <- coef(es)  # Obtém os coeficientes estimados da regressão
ses1 <- sqrt(diag(summary(es)$vcov))  # Obtém os erros padrão dos coeficientes

# Índices dos coeficientes antes e depois do evento
idx.pre <- 1:(time.periods-2)  # Índices dos períodos antes do tratamento
idx.post <- (time.periods-1):length(coefs1)  # Índices dos períodos depois do tratamento

# Ajusta os coeficientes e adiciona um 0 no tempo do evento -1 (como referência)
coefs <- c(coefs1[idx.pre], 0, coefs1[idx.post])
ses <- c(ses1[idx.pre], 0, ses1[idx.post])

# Define os períodos relativos ao tratamento (tempo de exposição ao tratamento)
exposure <- -(time.periods-1):(time.periods-2)

# Cria um dataframe para armazenar os coeficientes e erros padrão
cmat <- data.frame(coefs=coefs, ses=ses, exposure=exposure)

```


#### Grafico do Estudo de Eventos Reapresentacao

```{r}
# Carregar o pacote ggplot2 para visualização
library(ggplot2)

# Criar o gráfico do estudo de eventos
ggplot(data = cmat, mapping = aes(y = coefs, x = exposure)) +
  geom_line(linetype = "dashed") +  # Linha tracejada conectando os pontos
  geom_point() +  # Adiciona os pontos estimados no gráfico
  geom_errorbar(aes(ymin = (coefs - 1.96 * ses), ymax = (coefs + 1.96 * ses)), width = 0.2) +  
  ylim(c(-1, 1)) +  # Define os limites do eixo Y
  theme_bw()  # Usa um tema de fundo preto e branco para o gráfico

# Salvar o gráfico ajustado
ggsave("grafico_preteste_reapr.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```

### Pre-teste QuantiReapr


```{r}
# Executar a regressão de estudo de eventos
#-------------------------------------------------------------------------------

# Carregar o pacote plm para modelagem de dados em painel
library(plm)

# Rodar a regressão de estudo de eventos
# Normaliza o efeito do período pré-tratamento para ser 0
es_QuantiReapr <- plm(Quanti_Reapr ~ Dtmin3 + Dtmin2 + Dt0 + Dt1 + Dt2, 
          data = dados_att_preteste, model = "within", effect = "twoways",
          index = c("TICKER_num", "ANO_num"))

summary(es_QuantiReapr)
```


```{r}
# Algumas configurações para ajustar o gráfico
# Adiciona um coeficiente igual a 0 no tempo do evento -1
coefs3 <- coef(es_QuantiReapr)  # Obtém os coeficientes estimados da regressão
ses3 <- sqrt(diag(summary(es_QuantiReapr)$vcov))  # Obtém os erros padrão dos coeficientes

# Índices dos coeficientes antes e depois do evento
idx.pre3 <- 1:(time.periods-2)  # Índices dos períodos antes do tratamento
idx.post3 <- (time.periods-1):length(coefs3)  # Índices dos períodos depois do tratamento

# Ajusta os coeficientes e adiciona um 0 no tempo do evento -1 (como referência)
coefs3 <- c(coefs3[idx.pre3], 0, coefs3[idx.post3])
ses3 <- c(ses3[idx.pre3], 0, ses3[idx.post3])

# Define os períodos relativos ao tratamento (tempo de exposição ao tratamento)
exposure3 <- -(time.periods-1):(time.periods-2)

# Cria um dataframe para armazenar os coeficientes e erros padrão
cmat3 <- data.frame(coefs3=coefs3, ses3=ses3, exposure3=exposure3)
```

```{r}
# Carregar o pacote ggplot2 para visualização
library(ggplot2)

# Criar o gráfico do estudo de eventos
ggplot(data = cmat3, mapping = aes(y = coefs3, x = exposure3)) +
  geom_line(linetype = "dashed") +  # Linha tracejada conectando os pontos
  geom_point() +  # Adiciona os pontos estimados no gráfico
  geom_errorbar(aes(ymin = (coefs3 - 1.96 * ses3), ymax = (coefs3 + 1.96 * ses3)), width = 0.2) +  
  ylim(c(-1, 1)) +  # Define os limites do eixo Y
  theme_bw()  # Usa um tema de fundo preto e branco para o gráfico

# Salvar o gráfico ajustado
ggsave("grafico_preteste_QuantiReapr.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



### Pre-teste ContReapr

```{r}
# Executar a regressão de estudo de eventos
#-------------------------------------------------------------------------------

# Carregar o pacote plm para modelagem de dados em painel
library(plm)

# Rodar a regressão de estudo de eventos
# Normaliza o efeito do período pré-tratamento para ser 0
es_ContReapr <- plm(Contábil_Reapr ~ Dtmin3 + Dtmin2 + Dt0 + Dt1 + Dt2, 
          data = dados_att_preteste, model = "within", effect = "twoways",
          index = c("TICKER_num", "ANO_num"))

summary(es_ContReapr)
```

```{r}
# Algumas configurações para ajustar o gráfico
# Adiciona um coeficiente igual a 0 no tempo do evento -1
coefs4 <- coef(es_ContReapr)  # Obtém os coeficientes estimados da regressão
ses4 <- sqrt(diag(summary(es_ContReapr)$vcov))  # Obtém os erros padrão dos coeficientes

# Índices dos coeficientes antes e depois do evento
idx.pre4 <- 1:(time.periods-2)  # Índices dos períodos antes do tratamento
idx.post4 <- (time.periods-1):length(coefs4)  # Índices dos períodos depois do tratamento

# Ajusta os coeficientes e adiciona um 0 no tempo do evento -1 (como referência)
coefs4 <- c(coefs4[idx.pre4], 0, coefs4[idx.post4])
ses4 <- c(ses4[idx.pre4], 0, ses4[idx.post4])

# Define os períodos relativos ao tratamento (tempo de exposição ao tratamento)
exposure4 <- -(time.periods-1):(time.periods-2)

# Cria um dataframe para armazenar os coeficientes e erros padrão
cmat4 <- data.frame(coefs4=coefs4, ses4=ses4, exposure4=exposure4)
```

```{r}
# Carregar o pacote ggplot2 para visualização
library(ggplot2)

# Criar o gráfico do estudo de eventos
ggplot(data = cmat4, mapping = aes(y = coefs4, x = exposure4)) +
  geom_line(linetype = "dashed") +  # Linha tracejada conectando os pontos
  geom_point() +  # Adiciona os pontos estimados no gráfico
  geom_errorbar(aes(ymin = (coefs4 - 1.96 * ses4), ymax = (coefs4 + 1.96 * ses4)), width = 0.2) +  
  ylim(c(-1, 1)) +  # Define os limites do eixo Y
  theme_bw()  # Usa um tema de fundo preto e branco para o gráfico

# Salvar o gráfico ajustado
ggsave("grafico_preteste_ContReapr.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



### Pre-teste QtdReapr

```{r}
# Executar a regressão de estudo de eventos
#-------------------------------------------------------------------------------

# Carregar o pacote plm para modelagem de dados em painel
library(plm)

# Rodar a regressão de estudo de eventos
# Normaliza o efeito do período pré-tratamento para ser 0
es_QtdReapr <- plm(Qtd_Reapr ~ Dtmin3 + Dtmin2 + Dt0 + Dt1 + Dt2, 
          data = dados_att_preteste, model = "within", effect = "twoways",
          index = c("TICKER_num", "ANO_num"))

summary(es_QtdReapr)
```


```{r}
# Algumas configurações para ajustar o gráfico
# Adiciona um coeficiente igual a 0 no tempo do evento -1
coefs5 <- coef(es_QtdReapr)  # Obtém os coeficientes estimados da regressão
ses5 <- sqrt(diag(summary(es_QtdReapr)$vcov))  # Obtém os erros padrão dos coeficientes

# Índices dos coeficientes antes e depois do evento
idx.pre5 <- 1:(time.periods-2)  # Índices dos períodos antes do tratamento
idx.post5 <- (time.periods-1):length(coefs5)  # Índices dos períodos depois do tratamento

# Ajusta os coeficientes e adiciona um 0 no tempo do evento -1 (como referência)
coefs5 <- c(coefs5[idx.pre5], 0, coefs5[idx.post5])
ses5 <- c(ses5[idx.pre5], 0, ses5[idx.post5])

# Define os períodos relativos ao tratamento (tempo de exposição ao tratamento)
exposure5 <- -(time.periods-1):(time.periods-2)

# Cria um dataframe para armazenar os coeficientes e erros padrão
cmat5 <- data.frame(coefs5=coefs5, ses5=ses5, exposure5=exposure5)
```

```{r}
# Carregar o pacote ggplot2 para visualização
library(ggplot2)

# Criar o gráfico do estudo de eventos
ggplot(data = cmat5, mapping = aes(y = coefs5, x = exposure5)) +
  geom_line(linetype = "dashed") +  # Linha tracejada conectando os pontos
  geom_point() +  # Adiciona os pontos estimados no gráfico
  geom_errorbar(aes(ymin = (coefs5 - 1.96 * ses5), ymax = (coefs5 + 1.96 * ses5)), width = 0.2) +  
  ylim(c(-1, 1)) +  # Define os limites do eixo Y
  theme_bw()  # Usa um tema de fundo preto e branco para o gráfico

# Salvar o gráfico ajustado
ggsave("grafico_preteste_QtdReapr.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



### Pre-teste PAS

```{r}
# Executar a regressão de estudo de eventos
#-------------------------------------------------------------------------------

# Carregar o pacote plm para modelagem de dados em painel
library(plm)

# Rodar a regressão de estudo de eventos
# Normaliza o efeito do período pré-tratamento para ser 0
es2 <- plm(PAS ~ Dtmin3 + Dtmin2 + Dt0 + Dt1 + Dt2, 
          data = dados_att_preteste, model = "within", effect = "twoways",
          index = c("TICKER_num", "ANO_num"))

summary(es2)
```

#### Preparação dos Dados para o Gráfico

```{r}
# Algumas configurações para ajustar o gráfico
# Adiciona um coeficiente igual a 0 no tempo do evento -1
coefs2 <- coef(es2)  # Obtém os coeficientes estimados da regressão
ses2 <- sqrt(diag(summary(es2)$vcov))  # Obtém os erros padrão dos coeficientes

# Índices dos coeficientes antes e depois do evento
idx.pre2 <- 1:(time.periods-2)  # Índices dos períodos antes do tratamento
idx.post2 <- (time.periods-1):length(coefs2)  # Índices dos períodos depois do tratamento

# Ajusta os coeficientes e adiciona um 0 no tempo do evento -1 (como referência)
coefs2 <- c(coefs2[idx.pre2], 0, coefs2[idx.post2])
ses2 <- c(ses2[idx.pre2], 0, ses2[idx.post2])

# Define os períodos relativos ao tratamento (tempo de exposição ao tratamento)
exposure2 <- -(time.periods-1):(time.periods-2)

# Cria um dataframe para armazenar os coeficientes e erros padrão
cmat2 <- data.frame(coefs2=coefs2, ses2=ses2, exposure2=exposure2)

```


#### Grafico do Estudo de Eventos PAS

```{r}
# Carregar o pacote ggplot2 para visualização
library(ggplot2)

# Criar o gráfico do estudo de eventos
ggplot(data = cmat2, mapping = aes(y = coefs2, x = exposure2)) +
  geom_line(linetype = "dashed") +  # Linha tracejada conectando os pontos
  geom_point() +  # Adiciona os pontos estimados no gráfico
  geom_errorbar(aes(ymin = (coefs2 - 1.96 * ses2), ymax = (coefs2 + 1.96 * ses2)), width = 0.2) +  
  ylim(c(-1, 1)) +  # Define os limites do eixo Y
  theme_bw()  # Usa um tema de fundo preto e branco para o gráfico

# Salvar o gráfico ajustado
ggsave("grafico_preteste_pas.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```

### Pre-teste Quanti_PAS


```{r}
# Executar a regressão de estudo de eventos
#-------------------------------------------------------------------------------

# Carregar o pacote plm para modelagem de dados em painel
library(plm)

# Rodar a regressão de estudo de eventos
# Normaliza o efeito do período pré-tratamento para ser 0
es_QuantiPAS <- plm(Quanti_PAS ~ Dtmin3 + Dtmin2 + Dt0 + Dt1 + Dt2, 
          data = dados_att_preteste, model = "within", effect = "twoways",
          index = c("TICKER_num", "ANO_num"))

summary(es_QuantiPAS)
```


```{r}
# Algumas configurações para ajustar o gráfico
# Adiciona um coeficiente igual a 0 no tempo do evento -1
coefs6 <- coef(es_QuantiPAS)  # Obtém os coeficientes estimados da regressão
ses6 <- sqrt(diag(summary(es_QuantiPAS)$vcov))  # Obtém os erros padrão dos coeficientes

# Índices dos coeficientes antes e depois do evento
idx.pre6 <- 1:(time.periods-2)  # Índices dos períodos antes do tratamento
idx.post6 <- (time.periods-1):length(coefs6)  # Índices dos períodos depois do tratamento

# Ajusta os coeficientes e adiciona um 0 no tempo do evento -1 (como referência)
coefs6 <- c(coefs6[idx.pre6], 0, coefs6[idx.post6])
ses6 <- c(ses6[idx.pre6], 0, ses6[idx.post6])

# Define os períodos relativos ao tratamento (tempo de exposição ao tratamento)
exposure6 <- -(time.periods-1):(time.periods-2)

# Cria um dataframe para armazenar os coeficientes e erros padrão
cmat6 <- data.frame(coefs6=coefs6, ses6=ses6, exposure6=exposure6)
```


```{r}
# Carregar o pacote ggplot2 para visualização
library(ggplot2)

# Criar o gráfico do estudo de eventos
ggplot(data = cmat6, mapping = aes(y = coefs6, x = exposure6)) +
  geom_line(linetype = "dashed") +  # Linha tracejada conectando os pontos
  geom_point() +  # Adiciona os pontos estimados no gráfico
  geom_errorbar(aes(ymin = (coefs6 - 1.96 * ses6), ymax = (coefs6 + 1.96 * ses6)), width = 0.2) +  
  ylim(c(-1, 1)) +  # Define os limites do eixo Y
  theme_bw()  # Usa um tema de fundo preto e branco para o gráfico

# Salvar o gráfico ajustado
ggsave("grafico_preteste_QuantiPAS.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


### Pre-teste Contábil_PAS


```{r}
# Executar a regressão de estudo de eventos
#-------------------------------------------------------------------------------

# Carregar o pacote plm para modelagem de dados em painel
library(plm)

# Rodar a regressão de estudo de eventos
# Normaliza o efeito do período pré-tratamento para ser 0
es_ContPAS <- plm(Contábil_PAS ~ Dtmin3 + Dtmin2 + Dt0 + Dt1 + Dt2, 
          data = dados_att_preteste, model = "within", effect = "twoways",
          index = c("TICKER_num", "ANO_num"))

summary(es_ContPAS)
```


```{r}
# Algumas configurações para ajustar o gráfico
# Adiciona um coeficiente igual a 0 no tempo do evento -1
coefs7 <- coef(es_ContPAS)  # Obtém os coeficientes estimados da regressão
ses7 <- sqrt(diag(summary(es_ContPAS)$vcov))  # Obtém os erros padrão dos coeficientes

# Índices dos coeficientes antes e depois do evento
idx.pre7 <- 1:(time.periods-2)  # Índices dos períodos antes do tratamento
idx.post7 <- (time.periods-1):length(coefs7)  # Índices dos períodos depois do tratamento

# Ajusta os coeficientes e adiciona um 0 no tempo do evento -1 (como referência)
coefs7 <- c(coefs7[idx.pre7], 0, coefs7[idx.post7])
ses7 <- c(ses7[idx.pre7], 0, ses7[idx.post7])

# Define os períodos relativos ao tratamento (tempo de exposição ao tratamento)
exposure7 <- -(time.periods-1):(time.periods-2)

# Cria um dataframe para armazenar os coeficientes e erros padrão
cmat7 <- data.frame(coefs7=coefs7, ses7=ses7, exposure7=exposure7)
```

```{r}
# Carregar o pacote ggplot2 para visualização
library(ggplot2)

# Criar o gráfico do estudo de eventos
ggplot(data = cmat7, mapping = aes(y = coefs7, x = exposure7)) +
  geom_line(linetype = "dashed") +  # Linha tracejada conectando os pontos
  geom_point() +  # Adiciona os pontos estimados no gráfico
  geom_errorbar(aes(ymin = (coefs7 - 1.96 * ses7), ymax = (coefs7 + 1.96 * ses7)), width = 0.2) +  
  ylim(c(-1, 1)) +  # Define os limites do eixo Y
  theme_bw()  # Usa um tema de fundo preto e branco para o gráfico

# Salvar o gráfico ajustado
ggsave("grafico_preteste_ContPAS.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



### Pre-teste Culpado_PAS


```{r}
# Executar a regressão de estudo de eventos
#-------------------------------------------------------------------------------

# Carregar o pacote plm para modelagem de dados em painel
library(plm)

# Rodar a regressão de estudo de eventos
# Normaliza o efeito do período pré-tratamento para ser 0
es_CulpPAS <- plm(Culpado_PAS ~ Dtmin3 + Dtmin2 + Dt0 + Dt1 + Dt2, 
          data = dados_att_preteste, model = "within", effect = "twoways",
          index = c("TICKER_num", "ANO_num"))

summary(es_CulpPAS)
```


```{r}
# Algumas configurações para ajustar o gráfico
# Adiciona um coeficiente igual a 0 no tempo do evento -1
coefs8 <- coef(es_CulpPAS)  # Obtém os coeficientes estimados da regressão
ses8 <- sqrt(diag(summary(es_CulpPAS)$vcov))  # Obtém os erros padrão dos coeficientes

# Índices dos coeficientes antes e depois do evento
idx.pre8 <- 1:(time.periods-2)  # Índices dos períodos antes do tratamento
idx.post8 <- (time.periods-1):length(coefs8)  # Índices dos períodos depois do tratamento

# Ajusta os coeficientes e adiciona um 0 no tempo do evento -1 (como referência)
coefs8 <- c(coefs8[idx.pre8], 0, coefs8[idx.post8])
ses8 <- c(ses8[idx.pre8], 0, ses5[idx.post8])

# Define os períodos relativos ao tratamento (tempo de exposição ao tratamento)
exposure8 <- -(time.periods-1):(time.periods-2)

# Cria um dataframe para armazenar os coeficientes e erros padrão
cmat8 <- data.frame(coefs8=coefs8, ses8=ses8, exposure8=exposure8)
```

```{r}
# Carregar o pacote ggplot2 para visualização
library(ggplot2)

# Criar o gráfico do estudo de eventos
ggplot(data = cmat8, mapping = aes(y = coefs8, x = exposure8)) +
  geom_line(linetype = "dashed") +  # Linha tracejada conectando os pontos
  geom_point() +  # Adiciona os pontos estimados no gráfico
  geom_errorbar(aes(ymin = (coefs8 - 1.96 * ses8), ymax = (coefs8 + 1.96 * ses8)), width = 0.2) +  
  ylim(c(-1, 1)) +  # Define os limites do eixo Y
  theme_bw()  # Usa um tema de fundo preto e branco para o gráfico

# Salvar o gráfico ajustado
ggsave("grafico_preteste_CulpPAS.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```






### Exportando tabelas pre-teste


```{r}
# Carregar os pacotes necessários
library(jtools)

# Exportar a regressão para um arquivo .docx
export_summs(es,
             es_QuantiReapr,
             es_ContReapr,
             es_QtdReapr,
             model.names = c("Reapr", "QuantiReapr", "ContReapr", "QtdReapr"), 
             to.file = "docx", 
             file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela_Pre_Teste_Reapr_derivadas.docx")
```




```{r}
# Carregar os pacotes necessários
library(jtools)

# Exportar a regressão para um arquivo .docx
export_summs(es2,
             es_QuantiPAS,
             es_ContPAS,
             es_CulpPAS,
             model.names = c("PAS", "QuantiPAS", "ContPAS", "CulpPAS"), 
             to.file = "docx", 
             file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela_Pre_Teste_PAS_derivadas.docx")

```




# Gráficos de Tendências Paralelas

### Reapresentacao x MONIT_TRIB_GERAL

```{r}
library(ggplot2)
library(dplyr)

# Resuma os dados para calcular a média das reapresentações
data_trend <- dados %>%
  dplyr::group_by(ANO, MONIT_TRIB_GERAL) %>%
  dplyr::summarise(
    media_reapr = mean(Reapresentacao, na.rm = TRUE),
    .groups = "drop"
  )

# Crie o gráfico com MONIT_TRIB_GERAL interpretado como fator
ggplot(data_trend, 
       aes(x = ANO, 
           y = media_reapr, 
           color = factor(MONIT_TRIB_GERAL, levels = c(0, 1), labels = c("Não Monitorada", "Monitorada")), 
           group = MONIT_TRIB_GERAL)) +
  geom_line(size = 1) +  # Adiciona linhas de tendência
  geom_point(size = 2) +  # Adiciona pontos de dados
  labs(
    title = "Tendências Paralelas na Reapresentação Contábil",
    subtitle = "Comparação entre empresas monitoradas e não monitoradas",
    x = "Ano",
    y = "Média das Reapresentações",
    color = "Monitoramento Tributário"
  ) +
  geom_vline(xintercept = 2017, linetype = "dashed", color = "red", size = 1) +  # Evento exógeno
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5),
    legend.position = "top"
  )

```


### Reapresentação Quanti x MONIT_TRIB_GERAL

```{r}
library(ggplot2)
library(dplyr)

# Resuma os dados para calcular a média das reapresentações
data_trend <- dados %>%
  dplyr::group_by(ANO, MONIT_TRIB_GERAL) %>%
  dplyr::summarise(
    media_reapr = mean(Quanti_Reapr, na.rm = TRUE),
    .groups = "drop"
  )

# Defina os anos dos eventos exógenos (2010 a 2023)
anos_eventos <- 2010:2023

# Crie o gráfico com rótulos para todos os anos no eixo X
ggplot(data_trend, 
       aes(x = ANO, 
           y = media_reapr, 
           color = factor(MONIT_TRIB_GERAL, levels = c(0, 1), labels = c("Não Monitorada", "Monitorada")), 
           group = MONIT_TRIB_GERAL)) +
  geom_line(size = 1) +  # Adiciona linhas de tendência
  geom_point(size = 2) +  # Adiciona pontos de dados
  geom_vline(xintercept = anos_eventos, linetype = "dashed", color = "red", size = 0.8, alpha = 0.7) +  # Adiciona linhas verticais anuais
  scale_x_continuous(
    breaks = seq(2010, 2023, 1)  # Configura os anos no eixo X
  ) +
  labs(
    title = "Tendências Paralelas na Reapresentação Contábil Quantitativa",
    subtitle = "Comparação entre empresas monitoradas e não monitoradas com eventos exógenos anuais",
    x = "Ano",
    y = "Média das Reapresentações Quantitativas",
    color = "Monitoramento Tributário"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5),
    legend.position = "top",
    axis.text.x = element_text(angle = 45, hjust = 1)  # Inclina os anos no eixo X para facilitar a leitura
  )

```












# ATT grupo-tempo (Efeito Médio do Tratamento nos Tratados)

Fonte: https://bcallaway11.github.io/did/

## Legendas modelos

att1.1.1.1: Reapreasentacao = Monitoramento (sem controles)
att1.1.1: Reapresentacao = Monitoramento (com controles)
att1.1.2: Quanti_Reapr = Monitoramento (com controles)
att1.1.3: Contábil_Reapr = Monitoramento (com controles)
att1.1.4: Qtd_Reapr = Monitoramento (com controles)

att1.2.1.1: PAS = Monitoramento (sem controles)
att1.2.1: PAS = Monitoramento (com controles)
att1.2.2.1: PAS_2 = Monitoramento (sem controles)
att1.2.2: PAS_2 = Monitoramento (com controles)
att1.2.3.1: PAS_3 = Monitoramento (sem controles)
att1.2.3: PAS_3 = Monitoramento (com controles)
att1.2.4.1: Quanti_PAS = Monitoramento (sem controles)
att1.2.4: Quanti_PAS = Monitoramento (com controles)
att1.2.5.1: Contábil_PAS = Monitoramento (sem controles)
att1.2.5: Contábil_PAS = Monitoramento (com controles)






### Criando base para estimar ATT 

#### Instalando pacotes

```{r}
install.packages("dplyr")
library(dplyr)
```

```{r}
library(did)
library(ggplot2)
```




#### Período completo

```{r}
dados_att <- dados_reapr %>%
  dplyr::select("TICKER_num", "ANO_num", "ANO_TRAT_num", "PAS", "PAS_2", "PAS_3", "Culpado_PAS", "Quanti_PAS", "Quali_PAS", "Contábil_PAS", "Financeiro_PAS", "Outros_PAS", 
  "Reapresentacao", "Qtd_Reapr", "RE", "RC", "Quali_Reapr", "Quanti_Reapr", "Contábil_Reapr", 
  "Financeiro_Reapr", "Outros_Reapr", "RECEITA", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", 
  "MONIT_TRIB_GERAL", 
  "TRATAMENTO", "Lei13506t", "ENDIV_w1", "BIG4", "RTT", 
  "TAM_w1", "diffVENDAS_w1", "LCS", 
  "IDADE_w1", "MTB_w1", "PL_NEG", "ROA_w1", "COVID", 
  "SEG", "SETOR", "ACIO1_TOTAL", "ADM_IND_w1", "FIS_EXT", 
  "ADM_DIR_w1", "ADM_EXT_w1", "MAIOR_IND_ADM", "CAIXA_w1", 
  "INTANGIVEL_w1", "PREJUIZO", "AUD", "DA_KLW_w1", "ETR_w1", "CETR_w1", "ETR_LONG_w1", "CTRIB_w1", "MAIOR_ETR", "MAIOR_CETR", 
  "MAIOR_ETR_LONG", "MAIOR_CTRIB")

```

#### Ajustando os anos

```{r}
# Ajustando as colunas ANO_num e ANO_TRAT_num, mantendo 0 onde for 0
dados_att <- dados_att %>%
  mutate(
    ANO_num = ifelse(ANO_num == 0, 0, 2006 + ANO_num), # Converte valores diferentes de 0
    ANO_TRAT_num = ifelse(ANO_TRAT_num == 0 | is.na(ANO_TRAT_num), ANO_TRAT_num, 2006 + ANO_TRAT_num) # Mantém 0 e NA
  )

# Visualizando os dados ajustados
head(dados_att)

```


```{r}
table(dados_att$ANO_TRAT_num)  # Verifique as observações por grupo de tratamento
```

```{r}
# Filtrando os dados para o intervalo de 2010 a 2023
dados_att <- dados_att %>%
  filter(ANO_num >= 2010 & ANO_num <= 2023)

# Visualizando a nova base
head(dados_att)
```

```{r}
table(dados_att$ANO_TRAT_num)  # Verifique as observações por grupo de tratamento
```


### Carregando pacote did e ggplot2

```{r}
library(did)
```

```{r}
library(ggplot2)
```


## Reapresentacao (sem controles)

Controles utilizados nos modelos 2, 3 e 4:

ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG)

### att1.1.1: Reapresentacao = Monitoramento (com controles)

#### Estimar os efeitos médios de tratamento por grupo e tempo, use a função att_gt.

A função att_gt retorna um objeto da classe MP. Este contém muitas informações, mas, o mais importante, são as estimativas dos efeitos médios do tratamento para o grupo-tempo e seus erros padrão. Para ver esses valores, podemos chamar a função summary.

```{r}
att1.1.1 <- att_gt(
  yname = "Reapresentacao",    
  tname = "ANO_num",           
  idname = "TICKER_num",       
  gname = "ANO_TRAT_num",      
  data = dados_att,          
  control_group = "nevertreated",
  xformla = ~ ROA_w1,
  allow_unbalanced_panel = TRUE 
)

summary(att1.1.1)

```

Não consegui rodar com ROA: Error in DRDID::drdid_rc(y = Y, post = post, D = G, covariates = covariates,  : 
  The regression design matrix for pre-treatment is singular. Consider removing some 



```{r}
# Summary da base para verificar NAs
summary(dados_att)
```



```{r}
# Summary pra ver os NAs do ROA_w1
summary(dados_att$ROA_w1)

```

```{r}
# Verificar variabilidade por período
library(dplyr)
dados_att %>%
  group_by(ANO_num) %>%
  summarise(variancia = var(ROA_w1, na.rm = TRUE))
```

ROA_w1 tem variabilidade suficiente em todos os períodos, embora apresente valores mais baixos entre 2015 e 2019. Isso sugere que ROA_w1 pode ser utilizada como covariável no modelo, mas períodos de baixa variabilidade podem ser problemáticos dependendo do número de observações em cada grupo.

```{r}
# Verificando Tamanho de cada grupo
dados_att %>%
  group_by(ANO_TRAT_num) %>%
  summarise(tamanho_grupo = n())
```

```{r}
# Definir um limite para o tamanho mínimo dos grupos (exemplo: 50)
tamanho_minimo <- 50

# Calcular o tamanho dos grupos
tamanho_grupo <- dados_att %>%
  group_by(ANO_TRAT_num) %>%
  summarise(tamanho_grupo = n())

# Identificar grupos pequenos
grupos_pequenos <- tamanho_grupo %>%
  filter(tamanho_grupo < tamanho_minimo) %>%
  pull(ANO_TRAT_num)

# Excluir grupos pequenos da base de dados
dados_att_controles <- dados_att %>%
  filter(!ANO_TRAT_num %in% grupos_pequenos)

# Verificar os grupos restantes
table(dados_att_controles$ANO_TRAT_num)

```

```{r}
dados_att_controles <- dados_att_controles %>%
  filter(ANO_TRAT_num != 2015)
```

Foram excluídos 2015, 2022 e 2023, que tinham menos de 50 observações.

```{r}
att1.1.1 <- att_gt(
  yname = "Reapresentacao",    
  tname = "ANO_num",           
  idname = "TICKER_num",       
  gname = "ANO_TRAT_num",      
  data = dados_att_controles,          
  control_group = "nevertreated",
  xformla = ~ IDADE_w1,          # Covariável incluída
  allow_unbalanced_panel = TRUE
)
summary(att1.1.1)
```


ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG)












### att1.1.1.1: Reapreasentacao = Monitoramento (sem controles)

#### Estimar os efeitos médios de tratamento por grupo e tempo, use a função att_gt.

A função att_gt retorna um objeto da classe MP. Este contém muitas informações, mas, o mais importante, são as estimativas dos efeitos médios do tratamento para o grupo-tempo e seus erros padrão. Para ver esses valores, podemos chamar a função summary.

```{r}
att1.1.1.1 <- att_gt(
  yname = "Reapresentacao",    
  tname = "ANO_num",           
  idname = "TICKER_num",       
  gname = "ANO_TRAT_num",      
  data = dados_att,          
  control_group = "nevertreated", 
  allow_unbalanced_panel = TRUE 
)

summary(att1.1.1.1)

```


#### Plotando os efeitos médios do tratamento para o grupo-tempo

```{r}
ggdid(att1.1.1.1, ylim = c(-1, 1)) +
  theme_minimal() +
  theme(strip.text = element_text(size = 12, face = "bold"),  # Ajusta os rótulos dos grupos
        plot.title = element_text(hjust = 0.5)) +  # Centraliza o título
  labs(x = "Ano", y = "Efeito Médio do Tratamento", 
       title = "Efeitos Médios do Tratamento por Grupo")

```

#### Gráfico Efeitos Médios do Tratamento por Grupos Específicos

```{r}
ggdid(att1.1.1.1, ylim = c(-1, 1), group = c(2011)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.1.1.1.grupo2011.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



Para uma melhor visualização.

```{r}
ggdid(att1.1.1.1, ylim = c(-1, 1), group = c(2015)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.1.1.1.grupo2015.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)



```

O gráfico sugere que:

Antes do tratamento, não há diferenças significativas entre os grupos tratados e nunca tratados.
Após o início do tratamento, há evidências de impacto positivo em determinados períodos.
O efeito do tratamento não é uniforme ao longo do tempo.

Efeito médio antes do tratamento: no período pré-tratamento, os valores dos efeitos (em vermelho) estão próximos de zero, com barras de erro que frequentemente incluem o valor zero.
Isso sugere que antes do início do tratamento, não havia uma diferença sistemática entre as empresas tratadas e as nunca tratadas.

Efeito médio após o tratamento: no período pós-tratamento (em azul), os pontos começam a se afastar de zero, indicando que o tratamento teve um impacto significativo para certos anos.
Em alguns anos, os intervalos de confiança não incluem zero, sugerindo que o efeito é estatisticamente significativo.

Heterogeneidade no efeito do tratamento: o impacto do tratamento varia ao longo do tempo. Em alguns anos, o efeito é mais pronunciado (positivos e significativos), enquanto em outros, os efeitos não diferem de zero.


```{r}
ggdid(att1.1.1.1, ylim = c(-.9, .9), group = c(2017)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.1.1.1.grupo2017.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)


```

Interpretação:

Eixo Y (Efeito Médio do Tratamento por Grupo e Tempo):
Mostra o efeito médio do tratamento em cada ano. Valores acima de 0 indicam um impacto positivo do tratamento. Valores abaixo de 0 indicam um impacto negativo. A linha pontilhada em 0 representa a ausência de efeito.

Cores e Significado:
Vermelho ("Pre"): Representa o período pré-tratamento (antes de 2017). Mostra os efeitos estimados para os anos antes da implementação do tratamento.
Azul ("Post"): Representa o período pós-tratamento (2017 em diante). Mostra os efeitos estimados do tratamento após sua implementação.

Período Pré-Tratamento (2011–2016): Os pontos vermelhos estão próximos de 0, e as barras de erro (intervalos de confiança) frequentemente incluem 0.Isso sugere que não houve diferenças estatisticamente significativas entre o grupo tratado (2017) e o grupo de controle antes do tratamento.
Essa estabilidade é importante, pois valida o pressuposto de que os grupos eram comparáveis antes do início do tratamento.

Período Pós-Tratamento (2017–2023): A partir de 2017 (ano de início do tratamento), observa-se uma mudança nos efeitos médios (pontos azuis). Alguns anos (por exemplo, 2018 e 2019) mostram efeitos negativos significativos (as barras de erro não incluem 0). Em anos posteriores (2020-2023), os efeitos variam, mas parecem estabilizar próximos de 0 ou levemente positivos, sugerindo que o impacto do tratamento foi reduzido ou menos consistente.



```{r}
ggdid(att1.1.1.1, ylim = c(-.5, .75), group = c(2020)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.1.1.1.grupo2020.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```

Período Pré-Tratamento (2011-2019): Os pontos vermelhos estão próximos de 0, com barras de erro que frequentemente incluem 0.Não há evidência de diferenças estatisticamente significativas entre o grupo tratado (2020) e o grupo de controle durante esse período.
Isso valida o pressuposto de que os grupos eram comparáveis antes do tratamento.

Período Pós-Tratamento (2020-2023): A partir de 2020 (ano do tratamento), os pontos azuis representam os efeitos médios do tratamento:

2020 e 2021: Os efeitos são próximos de 0, mas com barras de erro largas, indicando grande incerteza estatística. Não é possível afirmar que o impacto do tratamento foi significativo nesses anos.
2022 e 2023: Os efeitos ainda estão próximos de 0 e mantêm barras de erro amplas, sugerindo que o impacto do tratamento continua não sendo estatisticamente significativo.



#### Gráfico de estudo de evento: Efeito Médio pela Duração da Exposição

```{r}
grafico_att1.1.1.1 <- aggte(att1.1.1.1, type = "dynamic")
```

```{r}
summary(grafico_att1.1.1.1)
```

Event time: refere-se a cada grupo em relação ao momento em que eles começam a participar do tratamento. 
Event time=0: corresponde ao efeito do impacto inicial do tratamento (significativo a 0,3192, o que indica que teve um impacto imediato positivo)
Event time=-1: é o efeito no período anterior a uma unidade se tornar tratada. Valor próximo de 0 (0,0210) e não significativo. Não há evidência de um efeito significativo antes do tratamento, o que sugere que unidades tratadas eram semelhantes às não tratadas antes do impacto.
Event time posteriores: não significativo nos anos 2017 e 2023. Nos demais, houve significância. O impacto reduz ao longo do tempo, mas foram significativos na maioria dos anos.



```{r}
ggdid(grafico_att1.1.1.1) +
  theme_minimal() +
  theme(
    plot.title = element_blank()  # Remove o título do gráfico
  ) +
  labs(
    x = "Ano",  # Mantém o rótulo do eixo X
    y = "Efeito Médio por Duração da Exposição"     # Mantém o rótulo do eixo Y
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.1.1.1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```

Os pontos vermelhos são os períodos antes do tratamento, e os pontos azuis são os períodos pós-tratamento. A diferença é que o eixo x está em tempo de evento.

Após tratamento, empresas reapresentam mais suas demonstrações.



#### Parâmetro de efeito médio geral do tratamento

```{r}
group_effects_att1.1.1.1 <- aggte(att1.1.1.1, type = "group")
summary(group_effects_att1.1.1.1)
```

ATT: 0,1564
O ATT de 0,1564 sugere que o monitoramento de grandes contribuintes está associado a um aumento médio de 15,64% na Reapresentação (considerando que a variável é interpretada como uma proporção ou frequência).

As empresas monitoradas como grandes contribuintes tiveram, em média, um aumento de 15,64 pontos percentuais na reapresentação em comparação com as empresas que não foram monitoradas.

Isso sugere que o monitoramento é eficaz em estimular ou impactar a reapresentação, possivelmente como resultado de maior supervisão ou incentivo ao cumprimento das obrigações fiscais.



### att1.2.1.1: PAS = Monitoramento (sem controles)

#### Estimar os efeitos médios de tratamento por grupo e tempo, use a função att_gt.

A função att_gt retorna um objeto da classe MP. Este contém muitas informações, mas, o mais importante, são as estimativas dos efeitos médios do tratamento para o grupo-tempo e seus erros padrão. Para ver esses valores, podemos chamar a função summary.

```{r}
att1.2.1.1 <- att_gt(
  yname = "PAS",    
  tname = "ANO_num",           
  idname = "TICKER_num",       
  gname = "ANO_TRAT_num",      
  data = dados_att,          
  control_group = "nevertreated", 
  allow_unbalanced_panel = TRUE
)

summary(att1.2.1.1)

```


#### Plotando os efeitos médios do tratamento para o grupo-tempo

```{r}
ggdid(att1.2.1.1, ylim = c(-.4, .4)) +
  theme_minimal() +
  geom_point(size = 1) +
  theme(strip.text = element_text(size = 8, face = "plain"),  # Ajusta os rótulos dos grupos
        plot.title = element_text(hjust = 0.5)) +  # Centraliza o título
  labs(x = "Ano", y = "Efeito Médio do Tratamento", 
       title = "Efeitos Médios do Tratamento por Grupo-PAS (sem controles")

```

#### Gráfico Efeitos Médios do Tratamento por Grupos Específicos

Para uma melhor visualização.

```{r}
ggdid(att1.2.1.1, ylim = c(-.25, .3), group = c(2015)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.1.1.grupo2015.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)



```


```{r}
ggdid(att1.2.1.1, ylim = c(-.25, .3), group = c(2017)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.1.1.grupo2017.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)



```





```{r}
ggdid(att1.2.1.1, ylim = c(-.25, .3), group = c(2020)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.1.1.grupo2020.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)



```

#### Gráfico de estudo de evento

```{r}
grafico_att1.2.1.1 <- aggte(att1.2.1.1, type = "dynamic")
```

```{r}
summary(grafico_att1.2.1.1)
```

```{r}
ggdid(grafico_att1.2.1.1) +
  theme_minimal() +
  theme(
    plot.title = element_blank()  # Remove o título do gráfico
  ) +
  labs(
    x = "Ano",  # Mantém o rótulo do eixo X
    y = "Efeito Médio por Duração da Exposição"     # Mantém o rótulo do eixo Y
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.1.1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```


#### Parâmetro de efeito médio geral do tratamento

```{r}
group_effects_att1.2.1.1 <- aggte(att1.2.1.1, type = "group")
summary(group_effects_att1.2.1.1)
```

ATT: 0,0392
O ATT de 0,0392 sugere que o monitoramento de grandes contribuintes está associado a um aumento médio de 3,92% nos PAS (considerando que a variável é interpretada como uma proporção ou frequência).

As empresas monitoradas como grandes contribuintes tiveram, em média, um aumento de 3,92% pontos percentuais nos PAS em comparação com as empresas que não foram monitoradas.

Isso sugere que o monitoramento é eficaz em estimular ou impactar os PAS, possivelmente como resultado de maior supervisão ou incentivo ao cumprimento das obrigações fiscais.

Em comparação com o resultado anterior (ATT de 0,1564 para Reapresentação), o impacto sobre PAS é mais modesto, mas ainda significativo.



### att1.2.2.1: PAS_2 = Monitoramento (sem controles)


#### Estimar os efeitos médios de tratamento por grupo e tempo, use a função att_gt.

A função att_gt retorna um objeto da classe MP. Este contém muitas informações, mas, o mais importante, são as estimativas dos efeitos médios do tratamento para o grupo-tempo e seus erros padrão. Para ver esses valores, podemos chamar a função summary.

```{r}
att1.2.2.1 <- att_gt(
  yname = "PAS_2",    
  tname = "ANO_num",           
  idname = "TICKER_num",       
  gname = "ANO_TRAT_num",      
  data = dados_att,          
  control_group = "nevertreated", 
  allow_unbalanced_panel = TRUE
)

summary(att1.2.2.1)

```


#### Plotando os efeitos médios do tratamento para o grupo-tempo

```{r}
ggdid(att1.2.2.1, ylim = c(-.4, .4)) +
  theme_minimal() +
  geom_point(size = 1) +
  theme(strip.text = element_text(size = 8, face = "plain"),  # Ajusta os rótulos dos grupos
        plot.title = element_text(hjust = 0.5)) +  # Centraliza o título
  labs(x = "Ano", y = "Efeito Médio do Tratamento", 
       title = "Efeitos Médios do Tratamento por Grupo-PAS_2 (sem controles")

```


#### Gráfico Efeitos Médios do Tratamento por Grupos Específicos

Para uma melhor visualização.

```{r}
ggdid(att1.2.2.1, ylim = c(-1, 1), group = c(2015)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.2.1.grupo2015.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)



```


```{r}
ggdid(att1.2.2.1, ylim = c(-.9, .9), group = c(2017)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.2.1.grupo2017.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)



```

```{r}
ggdid(att1.2.2.1, ylim = c(-.2, .2), group = c(2020)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.2.1.grupo2020.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)



```



#### Gráfico de estudo de evento

```{r}
grafico_att1.2.2.1 <- aggte(att1.2.2.1, type = "dynamic")
```

```{r}
summary(grafico_att1.2.2.1)
```

```{r}
ggdid(grafico_att1.2.2.1) +
  theme_minimal() +
  theme(
    plot.title = element_blank()  # Remove o título do gráfico
  ) +
  labs(
    x = "Ano",  # Mantém o rótulo do eixo X
    y = "Efeito Médio por Duração da Exposição"     # Mantém o rótulo do eixo Y
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.2.1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```


#### Parâmetro de efeito médio geral do tratamento

```{r}
group_effects_att1.2.2.1 <- aggte(att1.2.2.1, type = "group")
summary(group_effects_att1.2.2.1)
```

Aumento médio de 7,07%:
Empresas monitoradas têm, em média, 7,07% a mais de chance de apresentar PAS (ter PAS em algum momento) do que empresas não monitoradas. 



### att1.2.4.1: Quanti_PAS = Monitoramento (sem controles)


#### Estimar os efeitos médios de tratamento por grupo e tempo, use a função att_gt.

A função att_gt retorna um objeto da classe MP. Este contém muitas informações, mas, o mais importante, são as estimativas dos efeitos médios do tratamento para o grupo-tempo e seus erros padrão. Para ver esses valores, podemos chamar a função summary.

```{r}
att1.2.4.1 <- att_gt(
  yname = "Quanti_PAS",    
  tname = "ANO_num",           
  idname = "TICKER_num",       
  gname = "ANO_TRAT_num",      
  data = dados_att,          
  control_group = "nevertreated", 
  allow_unbalanced_panel = TRUE
)

summary(att1.2.4.1)

```


#### Plotando os efeitos médios do tratamento para o grupo-tempo

```{r}
ggdid(att1.2.4.1, ylim = c(-.4, .4)) +
  theme_minimal() +
  geom_point(size = 1) +
  theme(strip.text = element_text(size = 8, face = "plain"),  # Ajusta os rótulos dos grupos
        plot.title = element_text(hjust = 0.5)) +  # Centraliza o título
  labs(x = "Ano", y = "Efeito Médio do Tratamento", 
       title = "Efeitos Médios do Tratamento por Grupo-Quanti_PAS (sem controles")

```


#### Gráfico Efeitos Médios do Tratamento por Grupos Específicos

Para uma melhor visualização.

```{r}
ggdid(att1.2.4.1, ylim = c(-.2, .2), group = c(2015)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.4.1.grupo2015.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```


```{r}
ggdid(att1.2.4.1, ylim = c(-.2, .2), group = c(2017)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.4.1.grupo2017.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```


```{r}
ggdid(att1.2.4.1, ylim = c(-.2, .2), group = c(2020)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.4.1.grupo2020.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```



#### Gráfico de estudo de evento

```{r}
grafico_att1.2.4.1 <- aggte(att1.2.4.1, type = "dynamic")
```

```{r}
summary(grafico_att1.2.4.1)
```
  
```{r}
ggdid(grafico_att1.2.4.1) +
  theme_minimal() +
  theme(
    plot.title = element_blank()  # Remove o título do gráfico
  ) +
  labs(
    x = "Ano",  # Mantém o rótulo do eixo X
    y = "Efeito Médio por Duração da Exposição"     # Mantém o rótulo do eixo Y
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.4.1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```



#### Parâmetro de efeito médio geral do tratamento

```{r}
group_effects_att1.2.4.1 <- aggte(att1.2.4.1, type = "group")
summary(group_effects_att1.2.4.1)
```



### att1.2.5.1: Contábil_PAS = Monitoramento (sem controles)


#### Estimar os efeitos médios de tratamento por grupo e tempo, use a função att_gt.

A função att_gt retorna um objeto da classe MP. Este contém muitas informações, mas, o mais importante, são as estimativas dos efeitos médios do tratamento para o grupo-tempo e seus erros padrão. Para ver esses valores, podemos chamar a função summary.

```{r}
att1.2.5.1 <- att_gt(
  yname = "Contábil_PAS",    
  tname = "ANO_num",           
  idname = "TICKER_num",       
  gname = "ANO_TRAT_num",      
  data = dados_att,          
  control_group = "nevertreated", 
  allow_unbalanced_panel = TRUE
)

summary(att1.2.5.1)

```


#### Plotando os efeitos médios do tratamento para o grupo-tempo

```{r}
ggdid(att1.2.5.1, ylim = c(-.4, .4)) +
  theme_minimal() +
  geom_point(size = 1) +
  theme(strip.text = element_text(size = 8, face = "plain"),  # Ajusta os rótulos dos grupos
        plot.title = element_text(hjust = 0.5)) +  # Centraliza o título
  labs(x = "Ano", y = "Efeito Médio do Tratamento", 
       title = "Efeitos Médios do Tratamento por Grupo-Contábil_PAS (sem controles")

```



#### Gráfico Efeitos Médios do Tratamento por Grupos Específicos

Para uma melhor visualização.

```{r}
ggdid(att1.2.5.1, ylim = c(-.5, .5), group = c(2015)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.5.1.grupo2015.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```


```{r}
ggdid(att1.2.5.1, ylim = c(-.25, .25), group = c(2017)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.5.1.grupo2017.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```

```{r}
ggdid(att1.2.5.1, ylim = c(-.5, .5), group = c(2020)) +  # Foca nos grupos
  theme_minimal() +
  theme(
    strip.text = element_blank(),  # Ajusta os rótulos dos grupos
    plot.title = element_blank()  # Remove o título
  ) +
  labs(
    x = "Ano",
    y = "Efeito Médio do Tratamento por Grupo e Tempo"
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.5.1.grupo2020.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```


#### Gráfico de estudo de evento

```{r}
grafico_att1.2.5.1 <- aggte(att1.2.5.1, type = "dynamic")
```

```{r}
summary(grafico_att1.2.5.1)
```
  
```{r}
ggdid(grafico_att1.2.5.1) +
  theme_minimal() +
  theme(
    plot.title = element_blank()  # Remove o título do gráfico
  ) +
  labs(
    x = "Ano",  # Mantém o rótulo do eixo X
    y = "Efeito Médio por Duração da Exposição"     # Mantém o rótulo do eixo Y
  )

# Salvar o gráfico ajustado
ggsave("grafico_att1.2.5.1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```


#### Parâmetro de efeito médio geral do tratamento

```{r}
group_effects_att1.2.5.1 <- aggte(att1.2.5.1, type = "group")
summary(group_effects_att1.2.5.1)
```

O valor 0,0392 significa que o monitoramento aumentou, em média, a probabilidade de uma empresa apresentar Contábil_PAS em 3,92%.



# Base para Diff-in-diff e logit

```{r}
dados <- dados %>%
  dplyr::mutate(QCF_Reapr = ifelse(Quanti_Reapr==1 & Contábil_Reapr==1 & Financeiro_Reapr==1, 1, 0),
                QCF_PAS = ifelse(Culpado_PAS==1 & Quanti_PAS==1 & Contábil_PAS==1 & Financeiro_PAS==1, 1, 0))
```






```{r}
# Vetor com os nomes das colunas que você deseja selecionar
dados_logit <- dados %>%
  dplyr::select("TICKER", "ANO", "PAS", "PAS_2", "PAS_3", "Culpado_PAS", "Quanti_PAS", "Quali_PAS", "Contábil_PAS", "Financeiro_PAS", "Outros_PAS", 
  "Reapresentacao", "Qtd_Reapr", "RE", "RC", "Quali_Reapr", "Quanti_Reapr", "Contábil_Reapr", 
  "Financeiro_Reapr", "Outros_Reapr", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", 
  "MONIT_TRIB_GERAL", , "Lei13506t", "ENDIV_w1", "RTT", 
  "TAM_w1", "diffVENDAS_w1", "LCS", 
  "IDADE_w1", "MTB_w1", "ROA_w1", "COVID", 
  "SEG", "SETOR", "ADM_IND_w1", "FIS_EXT", 
  "ADM_DIR_w1", "ADM_EXT_w1", "MAIOR_IND_ADM", "CAIXA_w1", 
  "INTANGIVEL_w1", "PREJUIZO", "DA_KLW_w1", "PL_NEG", "ACIO1_TOTAL", "AUD", "BIG4", "QCF_Reapr", "QCF_PAS", "TRATAMENTO") %>%
  na.omit()
```











```{r}
colnames(dados_logit)
```



```{r}
table(dados_logit$PAS)
table(dados_logit$PAS_2)
table(dados_logit$PAS)
```



```{r}
library(dplyr)
```

      

# Diff-in-diff

```{r}
install.packages("plm")
```

```{r}
library(plm)
```


## Legendas Equacoes

mod1.1.1: Reapresentacao = Monitoramento Diferenciado (com controles)
mod1.1.1.1: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod1.1.2: RE = Monitoramento Diferenciado (com controles)
mod1.1.2.1: RE = Monitoramento Diferenciado (sem controles)
mod1.1.3: RC = Monitoramento Diferenciado (com controles) 
mod1.1.3.1: RC = Monitoramento Diferenciado (sem controles)
mod1.1.4: Quali_Reapr = Monitoramento Diferenciado (com controles)
mod1.1.4.1: Quali_Reapr = Monitoramento Diferenciado (sem controles)
mod1.1.5: Quanti_Reapr = Monitoramento Diferenciado (com controles)
mod1.1.5.1: Quanti_Reapr = Monitoramento Diferenciado (sem controles)
mod1.1.6: Contábil_Reapr = Monitoramento Diferenciado (com controles)
mod1.1.6.1: Contábil_Reapr = Monitoramento Diferenciado (sem controles)
mod1.1.7: Financeiro_Reapr = Monitoramento Diferenciado (com controles)
mod1.1.7.1: Financeiro_Reapr = Monitoramento Diferenciado (sem controles)
mod1.1.8: Outros_Reapr = Monitoramento Diferenciado (com controles)
mod1.1.8.1: Outros_Reapr = Monitoramento Diferenciado (sem controles)
mod1.1.9: Qtd_Reapr = Monitoramento Diferenciado (com controles)
mod1.1.9.1: Qtd_Reapr = Monitoramento Diferenciado (sem controles)

mod1.1.10: Reapresentacao = Monitoramento Especial (com controles)
mod1.1.10.1: Reapreasentacao = Monitoramento Especial (sem controles)
mod1.1.11: RE = Monitoramento Especial (com controles)
mod1.1.11.1: RE = Monitoramento Especial (sem controles)
mod1.1.12: RC = Monitoramento Especial (com controles) 
mod1.1.12.1: RC = Monitoramento Especial (sem controles)
mod1.1.13: Quali_Reapr = Monitoramento Especial (com controles)
mod1.1.13.1: Quali_Reapr = Monitoramento Especial (sem controles)
mod1.1.14: Quanti_Reapr = Monitoramento Especial (com controles)
mod1.1.14.1: Quanti_Reapr = Monitoramento Especial (sem controles)
mod1.1.15: Contábil_Reapr = Monitoramento Especial (com controles)
mod1.1.15.1: Contábil_Reapr = Monitoramento Especial (sem controles)
mod1.1.16: Financeiro_Reapr = Monitoramento Especial (com controles)
mod1.1.16.1: Financeiro_Reapr = Monitoramento Especial (sem controles)
mod1.1.17: Outros_Reapr = Monitoramento Especial (com controles)
mod1.1.17.1: Outros_Reapr = Monitoramento Especial (sem controles)
mod1.1.18: Qtd_Reapr = Monitoramento Especial (com controles)
mod1.1.18.1: Qtd_Reapr = Monitoramento Especial (sem controles)

mod1.1.19: Reapresentacao = Monitoramento Geral (com controles)
mod1.1.19.1: Reapreasentacao = Monitoramento Geral (sem controles)
mod1.1.20: RE = Monitoramento Geral (com controles)
mod1.1.20.1: RE = Monitoramento Geral (sem controles)
mod1.1.21: RC = Monitoramento Geral (com controles) 
mod1.1.21.1: RC = Monitoramento Geral (sem controles)
mod1.1.22: Quali_Reapr = Monitoramento Geral (com controles)
mod1.1.22.1: Quali_Reapr = Monitoramento Geral (sem controles)
mod1.1.23: Quanti_Reapr = Monitoramento Geral (com controles)
mod1.1.23.1: Quanti_Reapr = Monitoramento Geral (sem controles)
mod1.1.24: Contábil_Reapr = Monitoramento Geral (com controles)
mod1.1.24.1: Contábil_Reapr = Monitoramento Geral (sem controles)
mod1.1.25: Financeiro_Reapr = Monitoramento Geral (com controles)
mod1.1.25.1: Financeiro_Reapr = Monitoramento Geral (sem controles)
mod1.1.26: Outros_Reapr = Monitoramento Geral (com controles)
mod1.1.26.1: Outros_Reapr = Monitoramento Geral (sem controles)
mod1.1.27: Qtd_Reapr = Monitoramento Geral (com controles)
mod1.1.27.1: Qtd_Reapr = Monitoramento Geral (sem controles)

mod1.2.1: PAS = Monitoramento Diferenciado (com controles)
mod1.2.1.1: PAS = Monitoramento Diferenciado (sem controles)
mod1.2.2: Quanti_PAS = Monitoramento Diferenciado (com controles)
mod1.2.2.1: Quanti_PAS = Monitoramento Diferenciado (sem controles)
mod1.2.3: Quali_PAS = Monitoramento Diferenciado (com controles) 
mod1.2.3.1: Quali_PAS = Monitoramento Diferenciado (sem controles)
mod1.2.4: Contábil_PAS = Monitoramento Diferenciado (com controles)
mod1.2.4.1: Contábil_PAS = Monitoramento Diferenciado (sem controles)
mod1.2.5: Financeiro_PAS = Monitoramento Diferenciado (com controles)
mod1.2.5.1: Financeiro_PAS = Monitoramento Diferenciado (sem controles)
mod1.2.6: Outros_PAS = Monitoramento Diferenciado (com controles)
mod1.2.6.1: Outros_PAS = Monitoramento Diferenciado (sem controles)
mod1.2.7: Culpado_PAS = Monitoramento Diferenciado (com controles)
mod1.2.7.1: Culpado_PAS = Monitoramento Diferenciado (sem controles)

mod1.2.8: PAS = Monitoramento Especial (com controles)
mod1.2.8.1: PAS = Monitoramento Especial (sem controles)
mod1.2.9: Quanti_PAS = Monitoramento Especial (com controles)
mod1.2.9.1: Quanti_PAS = Monitoramento Especial (sem controles)
mod1.2.10: Quali_PAS = Monitoramento Especial (com controles) 
mod1.2.10.1: Quali_PAS = Monitoramento Especial (sem controles)
mod1.2.11: Contábil_PAS = Monitoramento Especial (com controles)
mod1.2.11.1: Contábil_PAS = Monitoramento Especial (sem controles)
mod1.2.12: Financeiro_PAS = Monitoramento Especial (com controles)
mod1.2.12.1: Financeiro_PAS = Monitoramento Especial (sem controles)
mod1.2.13: Outros_PAS = Monitoramento Especial (com controles)
mod1.2.13.1: Outros_PAS = Monitoramento Especial (sem controles)
mod1.2.14: Culpado_PAS = Monitoramento Especial (com controles)
mod1.2.14.1: Culpado_PAS = Monitoramento Especial (sem controles)

mod1.2.15: PAS = Monitoramento Geral (com controles)
mod1.2.15.1: PAS = Monitoramento Geral (sem controles)
mod1.2.16: Quanti_PAS = Monitoramento Geral (com controles)
mod1.2.16.1: Quanti_PAS = Monitoramento Geral (sem controles)
mod1.2.17: Quali_PAS = Monitoramento Geral (com controles) 
mod1.2.17.1: Quali_PAS = Monitoramento Geral (sem controles)
mod1.2.18: Contábil_PAS = Monitoramento Geral (com controles)
mod1.2.18.1: Contábil_PAS = Monitoramento Geral (sem controles)
mod1.2.19: Financeiro_PAS = Monitoramento Geral (com controles)
mod1.2.19.1: Financeiro_PAS = Monitoramento Geral (sem controles)
mod1.2.20: Outros_PAS = Monitoramento Geral (com controles)
mod1.2.20.1: Outros_PAS = Monitoramento Geral (sem controles)
mod1.2.21: Culpado_PAS = Monitoramento Geral (com controles)
mod1.2.21.1: Culpado_PAS = Monitoramento Geral (sem controles)



## Reapresentacoes

### Monitoramento Diferenciado

### mod1.1.1.a: QCF_Reapr = Monitoramento Diferenciado (com controles)

```{r}
mod1.1.1.a.pool <- plm(QCF_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.1.a.pool,robust=TRUE)
```

```{r}
mod1.1.1.a <- plm(QCF_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.1.a,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.1.a$residuals)
boxplot(mod1.1.1.a$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.1.a)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.1.a.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.1.a)
```

### mod1.1.1.1.a: QCF_Reapr = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.1.1.a <- plm(QCF_Reapr ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.1.1.a,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.1.1.a$residuals)
boxplot(mod1.1.1.1.a$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.1.1.a)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.1.1.a)
```


### mod1.1.1: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
library(plm)
```



```{r}
mod1.1.1.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.1.pool,robust=TRUE)
```



```{r}
mod1.1.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.1,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.1$residuals)
boxplot(mod1.1.1$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.1)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.1.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.1)
```

### mod1.1.1.1: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.1.1.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.1.1.pool,robust=TRUE)
```

```{r}
mod1.1.1.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.1.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.1.1$residuals)
boxplot(mod1.1.1.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.1.1)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.1.1.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.1.1)
```


### mod1.1.2: RE = Monitoramento Diferenciado (com controles)

```{r}
mod1.1.2 <- plm(RE~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.2,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.2$residuals)
boxplot(mod1.1.2$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.2)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.2)
```

### mod1.1.2.1: RE = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.2.1 <- plm(RE ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.2.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.2.1$residuals)
boxplot(mod1.1.2.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.2.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.2.1)
```


### mod1.1.3: RC = Monitoramento Diferenciado (com controles) 

```{r}
mod1.1.3 <- plm(RC ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.3,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.3$residuals)
boxplot(mod1.1.3$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.3)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.3)
```


### mod1.1.3.1: RC = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.3.1 <- plm(RC ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.3.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.3.1$residuals)
boxplot(mod1.1.3.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.3.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.3.1)
```


### mod1.1.4: Quali_Reapr = Monitoramento Diferenciado (com controles)

```{r}
mod1.1.4 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.4,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.4$residuals)
boxplot(mod1.1.4$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.4)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.4)
```


### mod1.1.4.1: Quali_Reapr = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.4.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.4.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.4.1$residuals)
boxplot(mod1.1.4.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.4.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.4.1)
```


### mod1.1.5: Quanti_Reapr = Monitoramento Diferenciado (com controles)


```{r}
mod1.1.5.pool <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.5.pool,robust=TRUE)
```


```{r}
mod1.1.5 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.5,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.5$residuals)
boxplot(mod1.1.5$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.5)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.5.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.5)
```


### mod1.1.5.1: Quanti_Reapr = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.5.1 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.5.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.5.1$residuals)
boxplot(mod1.1.5.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.5.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.5.1)
```


### mod1.1.6: Contábil_Reapr = Monitoramento Diferenciado (com controles)

```{r}
mod1.1.6.pool <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.6.pool,robust=TRUE)
```


```{r}
mod1.1.6 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.6,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.6$residuals)
boxplot(mod1.1.6$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.6)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.6.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.6)
```


### mod1.1.6.1: Contábil_Reapr = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.6.1 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.6.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.6.1$residuals)
boxplot(mod1.1.6.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.6.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.6.1)
```


### mod1.1.7: Financeiro_Reapr = Monitoramento Diferenciado (com controles)

```{r}
mod1.1.7 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.7,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.7$residuals)
boxplot(mod1.1.7$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.7)
```



#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.7)
```



### mod1.1.7.1: Financeiro_Reapr = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.7.1 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.7.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.7.1$residuals)
boxplot(mod1.1.7.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.7.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.7.1)
```



### mod1.1.8: Outros_Reapr = Monitoramento Diferenciado (com controles)

```{r}
mod1.1.8 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.8,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.8$residuals)
boxplot(mod1.1.8$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.8)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.8)
```


### mod1.1.8.1: Outros_Reapr = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.8.1 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.8.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.8.1$residuals)
boxplot(mod1.1.8.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.8.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.8.1)
```


### mod1.1.9: Qtd_Reapr = Monitoramento Diferenciado (com controles)

```{r}
mod1.1.9.pool <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.9.pool,robust=TRUE)
```


```{r}
mod1.1.9 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.9,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.9$residuals)
boxplot(mod1.1.9$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.9)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.9.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.9)
```



### mod1.1.9.1: Qtd_Reapr = Monitoramento Diferenciado (sem controles)

```{r}
mod1.1.9.1 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("TICKER","ANO","SETOR"),
                 model = "within")
summary(mod1.1.9.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.9.1$residuals)
boxplot(mod1.1.9.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.9.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.9.1)
```


# Monitoramento Especial

### mod1.1.10.a: QCF_Reapr = Monitoramento Especial (com controles)

```{r}
mod1.1.10.a.pool <- plm(QCF_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.10.a.pool,robust=TRUE)
```

```{r}
mod1.1.10.a <- plm(QCF_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.10.a,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.10.a$residuals)
boxplot(mod1.1.10.a$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.10.a)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.10.a.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.10.a)
```

### mod1.1.10.1: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
mod1.1.10.1.a <- plm(QCF_Reapr ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.10.1.a,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.10.1.a$residuals)
boxplot(mod1.1.10.1.a$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.10.1.a)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.10.1.a)
```


### mod1.1.10: Reapresentacao = Monitoramento Especial (com controles)

```{r}
mod1.1.10.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.10.pool,robust=TRUE)
```

```{r}
mod1.1.10 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.10,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.10$residuals)
boxplot(mod1.1.10$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.10)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.10.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.10)
```

### mod1.1.10.1: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
mod1.1.10.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.10.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.10.1$residuals)
boxplot(mod1.1.10.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.10.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.10.1)
```



### mod1.1.11: RE = Monitoramento Especial (com controles)

```{r}
mod1.1.11 <- plm(RE ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.11,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.11$residuals)
boxplot(mod1.1.11$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.11)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.11)
```


### mod1.1.11.1: RE = Monitoramento Especial (sem controles)

```{r}
mod1.1.11.1 <- plm(RE ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.11.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.11.1$residuals)
boxplot(mod1.1.11.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.11.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.11.1)
```


### mod1.1.12: RC = Monitoramento Especial (com controles) 

```{r}
mod1.1.12 <- plm(RC ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.12,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.12$residuals)
boxplot(mod1.1.12$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.12)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.12)
```


### mod1.1.12.1: RC = Monitoramento Especial (sem controles)

```{r}
mod1.1.12.1 <- plm(RC ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.12.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.12.1$residuals)
boxplot(mod1.1.12.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.12.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.12.1)
```


### mod1.1.13: Quali_Reapr = Monitoramento Especial (com controles)

```{r}
mod1.1.13 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.13,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.13$residuals)
boxplot(mod1.1.13$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.13)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.13)
```


### mod1.1.13.1: Quali_Reapr = Monitoramento Especial (sem controles)

```{r}
mod1.1.13.1 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.13.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.13.1$residuals)
boxplot(mod1.1.13.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.13.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.13.1)
```


### mod1.1.14: Quanti_Reapr = Monitoramento Especial (com controles)

```{r}
mod1.1.14.pool <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.14.pool,robust=TRUE)
```


```{r}
mod1.1.14 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.14,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.14$residuals)
boxplot(mod1.1.14$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.14)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.14.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.14)
```


### mod1.1.14.1: Quanti_Reapr = Monitoramento Especial (sem controles)

```{r}
mod1.1.14.1 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.14.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.14.1$residuals)
boxplot(mod1.1.14.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.14.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.14.1)
```



### mod1.1.15: Contábil_Reapr = Monitoramento Especial (com controles)

```{r}
mod1.1.15.pool <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.15.pool,robust=TRUE)
```


```{r}
mod1.1.15 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.15,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.15$residuals)
boxplot(mod1.1.15$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.15)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.15.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.15)
```



### mod1.1.15.1: Contábil_Reapr = Monitoramento Especial (sem controles)

```{r}
mod1.1.15.1 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.15.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.15.1$residuals)
boxplot(mod1.1.15.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.15.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.15.1)
```



### mod1.1.16: Financeiro_Reapr = Monitoramento Especial (com controles)

```{r}
mod1.1.16 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.16,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.16$residuals)
boxplot(mod1.1.16$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.16)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.16)
```


### mod1.1.16.1: Financeiro_Reapr = Monitoramento Especial (sem controles)

```{r}
mod1.1.16.1 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.16.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.16.1$residuals)
boxplot(mod1.1.16.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.16.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.16.1)
```


### mod1.1.17: Outros_Reapr = Monitoramento Especial (com controles)

```{r}
mod1.1.17 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.17,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.17$residuals)
boxplot(mod1.1.17$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.17)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.17)
```


### mod1.1.17.1: Outros_Reapr = Monitoramento Especial (sem controles)

```{r}
mod1.1.17.1 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.17.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.17.1$residuals)
boxplot(mod1.1.17.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.17.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.17.1)
```


### mod1.1.18: Qtd_Reapr = Monitoramento Especial (com controles)

```{r}
mod1.1.18.pool <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.18.pool,robust=TRUE)
```


```{r}
mod1.1.18 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.18,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.18$residuals)
boxplot(mod1.1.18$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.18)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.18.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.18)
```


### mod1.1.18.1: Qtd_Reapr = Monitoramento Especial (sem controles)

```{r}
mod1.1.18.1 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.18.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.18.1$residuals)
boxplot(mod1.1.18.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.18.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.18.1)
```


# Monitoramento Geral

### mod1.1.19.a: QCF_Reapr = Monitoramento Geral (com controles)

```{r}
mod1.1.19.a.pool <- plm(QCF_Reapr ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.19.a.pool,robust=TRUE)
```


```{r}
mod1.1.19.a <- plm(QCF_Reapr ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.19.a,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.19.a$residuals)
boxplot(mod1.1.19.a$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.19.a)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.19.a.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.19.a)
```


### mod1.1.19.1.a: QCF_Reapr = Monitoramento Geral (sem controles)

```{r}
mod1.1.19.1.a <- plm(QCF_Reapr ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.19.1.a,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.19.1.a$residuals)
boxplot(mod1.1.19.1.a$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.19.1.a)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.19.1.a)
```


### mod1.1.19: Reapresentacao = Monitoramento Geral (com controles)

```{r}
mod1.1.19.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.19.pool,robust=TRUE)
```


```{r}
mod1.1.19 <- plm(Reapresentacao ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logitteste,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.19,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.19$residuals)
boxplot(mod1.1.19$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.19)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.1.19.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.19)
```



### mod1.1.19.1: Reapreasentacao = Monitoramento Geral (sem controles)

```{r}
mod1.1.19.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.19.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.19.1$residuals)
boxplot(mod1.1.19.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.19.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.19.1)
```



### mod1.1.20: RE = Monitoramento Geral (com controles)

```{r}
mod1.1.20 <- plm(RE ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.20,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.20$residuals)
boxplot(mod1.1.20$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.20)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.20)
```



### mod1.1.20.1: RE = Monitoramento Geral (sem controles)

```{r}
mod1.1.20.1 <- plm(RE ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.20.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.20.1$residuals)
boxplot(mod1.1.20.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.20.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.20.1)
```


### mod1.1.21: RC = Monitoramento Geral (com controles) 

```{r}
mod1.1.21 <- plm(RC ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.21,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.21$residuals)
boxplot(mod1.1.21$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.21)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.21)
```


### mod1.1.21.1: RC = Monitoramento Geral (sem controles)

```{r}
mod1.1.21.1 <- plm(RC ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.21.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.21.1$residuals)
boxplot(mod1.1.21.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.21.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.21.1)
```


### mod1.1.22: Quali_Reapr = Monitoramento Geral (com controles)

```{r}
mod1.1.22 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.22,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.22$residuals)
boxplot(mod1.1.22$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.22)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.22)
```

### mod1.1.22.1: Quali_Reapr = Monitoramento Geral (sem controles)

```{r}
mod1.1.22.1 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.22.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.22.1$residuals)
boxplot(mod1.1.22.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.22.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.22.1)
```


### mod1.1.23: Quanti_Reapr = Monitoramento Geral (com controles)

```{r}
mod1.1.23 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.23,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.23$residuals)
boxplot(mod1.1.23$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.23)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.23)
```


### mod1.1.23.1: Quanti_Reapr = Monitoramento Geral (sem controles)

```{r}
mod1.1.23.1 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.23.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.23.1$residuals)
boxplot(mod1.1.23.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.23.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.23.1)
```


### mod1.1.24: Contábil_Reapr = Monitoramento Geral (com controles)

```{r}
mod1.1.24 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.24,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.24$residuals)
boxplot(mod1.1.24$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.24)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.24)
```


### mod1.1.24.1: Contábil_Reapr = Monitoramento Geral (sem controles)

```{r}
mod1.1.24.1 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.24.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.24.1$residuals)
boxplot(mod1.1.24.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.24.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.24.1)
```


### mod1.1.25: Financeiro_Reapr = Monitoramento Geral (com controles)

```{r}
mod1.1.25 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.25,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.25$residuals)
boxplot(mod1.1.25$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.25)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.25)
```


### mod1.1.25.1: Financeiro_Reapr = Monitoramento Geral (sem controles)

```{r}
mod1.1.25.1 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.25.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.25.1$residuals)
boxplot(mod1.1.25.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.25.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.25.1)
```


### mod1.1.26: Outros_Reapr = Monitoramento Geral (com controles)

```{r}
mod1.1.26 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.26,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.26$residuals)
boxplot(mod1.1.26$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.26)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.26)
```

### mod1.1.26.1: Outros_Reapr = Monitoramento Geral (sem controles)

```{r}
mod1.1.26.1 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.26.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.26.1$residuals)
boxplot(mod1.1.26.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.26.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.26.1)
```


### mod1.1.27: Qtd_Reapr = Monitoramento Geral (com controles)

```{r}
mod1.1.27 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.27,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.27$residuals)
boxplot(mod1.1.27$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.27)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.27)
```


### mod1.1.27.1: Qtd_Reapr = Monitoramento Geral (sem controles)

```{r}
mod1.1.27.1 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.27.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.1.27.1$residuals)
boxplot(mod1.1.27.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.1.27.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.1.27.1)
```

# PAS

## Monitoramento Diferenciado

### mod1.2.1: PAS = Monitoramento Diferenciado (com controles)

```{r}
library(plm)
```


```{r}
mod1.2.1.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.2.1.pool,robust=TRUE)
```


```{r}
mod1.2.1 <- plm(PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.1,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.1$residuals)
boxplot(mod1.2.1$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.1)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.1.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.1)
```


### mod1.2.1.1: PAS = Monitoramento Diferenciado (sem controles)

```{r}
mod1.2.1.1 <- plm(PAS ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.1.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.1.1$residuals)
boxplot(mod1.2.1.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.1.1)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.1.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.1.1)
```


### mod1.2.2: Quanti_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod1.2.2.pool <- plm(Quanti_PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.2.2.pool,robust=TRUE)
```


```{r}
mod1.2.2 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.2,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.2$residuals)
boxplot(mod1.2.2$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.2)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.2.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.2)
```




### mod1.2.2.1: Quanti_PAS = Monitoramento Diferenciado (sem controles)

```{r}
mod1.2.2.1 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.2.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.2.1$residuals)
boxplot(mod1.2.2.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.2.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.2.1)
```




### mod1.2.3: Quali_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod1.2.3 <- plm(Quali_PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.3,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.3$residuals)
boxplot(mod1.2.3$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.3)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.3)
```



### mod1.2.3.1: Quali_PAS = Monitoramento Diferenciado (sem controles)


```{r}
mod1.2.3.1 <- plm(Quali_PAS ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.3.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.3.1$residuals)
boxplot(mod1.2.3.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.3.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.3.1)
```


### mod1.2.4: Contábil_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod1.2.4.pool <- plm(Contabil_PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.2.4.pool,robust=TRUE)
```


```{r}
mod1.2.4 <- plm(Contabil_PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.4,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.4$residuals)
boxplot(mod1.2.4$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.4)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.4.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.4)
```



### mod1.2.4.1: Contábil_PAS = Monitoramento Diferenciado (sem controles)


```{r}
mod1.2.4.1 <- plm(Contábil_PAS ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.4.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.4.1$residuals)
boxplot(mod1.2.4.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.4.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.4.1)
```


### mod1.2.5: Financeiro_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod1.2.5 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.5,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.5$residuals)
boxplot(mod1.2.5$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.5)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.5)
```



### mod1.2.5.1: Financeiro_PAS = Monitoramento Diferenciado (sem controles)


```{r}
mod1.2.5.1 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.5.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.5.1$residuals)
boxplot(mod1.2.5.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.5.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.5.1)
```


### mod1.2.6: Outros_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod1.2.6 <- plm(Outros_PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.6,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.6$residuals)
boxplot(mod1.2.6$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.6)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.6)
```



### mod1.2.6.1: Outros_PAS = Monitoramento Diferenciado (sem controles)


```{r}
mod1.2.6.1 <- plm(Outros_PAS ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.6.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.6.1$residuals)
boxplot(mod1.2.6.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.6.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.6.1)
```


### mod1.2.7: Culpado_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod1.2.7.pool <- plm(Culpado_PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.2.7.pool,robust=TRUE)
```


```{r}
mod1.2.7 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.7,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.7$residuals)
boxplot(mod1.2.7$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.7)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.7.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.7)
```

### mod1.2.7.1: Culpado_PAS = Monitoramento Diferenciado (sem controles)


```{r}
mod1.2.7.1 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_DIF),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.7.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.7.1$residuals)
boxplot(mod1.2.7.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.7.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.7.1)
```

## Monitoramento Especial

### mod1.2.8: PAS = Monitoramento Especial (com controles)


```{r}
mod1.2.8.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.2.8.pool,robust=TRUE)
```

```{r}
mod1.2.8 <- plm(PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.8,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.8$residuals)
boxplot(mod1.2.8$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.8)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.8.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.8)
```


### mod1.2.8.1: PAS = Monitoramento Especial (sem controles)


```{r}
mod1.2.8.1 <- plm(PAS ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.8.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.8.1$residuals)
boxplot(mod1.2.8.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.8.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.8.1)
```


### mod1.2.9: Quanti_PAS = Monitoramento Especial (com controles)

```{r}
mod1.2.9.pool <- plm(Quanti_PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.2.9.pool,robust=TRUE)
```


```{r}
mod1.2.9 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.9,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.9$residuals)
boxplot(mod1.2.9$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.9)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.9.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.9)
```



### mod1.2.9.1: Quanti_PAS = Monitoramento Especial (sem controles)


```{r}
mod1.2.9.1 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.9.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.9.1$residuals)
boxplot(mod1.2.9.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.9.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.9.1)
```


### mod1.2.10: Quali_PAS = Monitoramento Especial (com controles)

```{r}
mod1.2.10 <- plm(Quali_PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.10,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.10$residuals)
boxplot(mod1.2.10$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.10)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.10)
```



### mod1.2.10.1: Quali_PAS = Monitoramento Especial (sem controles)


```{r}
mod1.2.10.1 <- plm(Quali_PAS ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.10.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.10.1$residuals)
boxplot(mod1.2.10.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.10.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.10.1)
```


### mod1.2.11: Contabil_PAS = Monitoramento Especial (com controles)

```{r}
mod1.2.11.pool <- plm(Contabil_PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.2.11.pool,robust=TRUE)
```



```{r}
mod1.2.11 <- plm(Contabil_PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.11,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.11$residuals)
boxplot(mod1.2.11$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.11)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.11.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.11)
```



### mod1.2.11.1: Contábil_PAS = Monitoramento Especial (sem controles)


```{r}
mod1.2.11.1 <- plm(Contábil_PAS ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.11.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.11.1$residuals)
boxplot(mod1.2.11.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.11.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.11.1)
```

### mod1.2.12: Financeiro_PAS = Monitoramento Especial (com controles)

```{r}
mod1.2.12 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.12,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.12$residuals)
boxplot(mod1.2.12$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.12)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.12)
```



### mod1.2.12.1: Financeiro_PAS = Monitoramento Especial (sem controles)


```{r}
mod1.2.12.1 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.12.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.12.1$residuals)
boxplot(mod1.2.12.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.12.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.12.1)
```


### mod1.2.13: Outros_PAS = Monitoramento Especial (com controles)

```{r}
mod1.2.13 <- plm(Outros_PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.13,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.13$residuals)
boxplot(mod1.2.13$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.13)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.13)
```



### mod1.2.13.1: Outros_PAS = Monitoramento Especial (sem controles)


```{r}
mod1.2.13.1 <- plm(Outros_PAS ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.13.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.13.1$residuals)
boxplot(mod1.2.13.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.13.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.13.1)
```


### mod1.2.14: Culpado_PAS = Monitoramento Especial (com controles)

```{r}
mod1.2.14.pool <- plm(Culpado_PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.2.14.pool,robust=TRUE)
```


```{r}
mod1.2.14 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.14,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.14$residuals)
boxplot(mod1.2.14$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.14)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.14.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.14)
```

### mod1.2.14.1: Culpado_PAS = Monitoramento Especial (sem controles)


```{r}
mod1.2.14.1 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_ESP),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.14.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.14.1$residuals)
boxplot(mod1.2.14.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.14.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.14.1)
```

## Monitoramento Geral

### mod1.2.15: PAS = Monitoramento Geral (com controles)


```{r}
mod1.2.15.pool <- plm(PAS ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.2.15.pool,robust=TRUE)
```

```{r}
mod1.2.15 <- plm(PAS ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logitteste,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.15,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.15$residuals)
boxplot(mod1.2.15$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.15)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod1.2.15.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.15)
```


### mod1.2.15.1: PAS = Monitoramento Geral (sem controles)


```{r}
mod1.2.15.1 <- plm(PAS ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.15.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.15.1$residuals)
boxplot(mod1.2.15.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.15.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.15.1)
```


### mod1.2.16: Quanti_PAS = Monitoramento Geral (com controles)

```{r}
mod1.2.16 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.16,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.16$residuals)
boxplot(mod1.2.16$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.16)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.16)
```



### mod1.2.16.1: Quanti_PAS = Monitoramento Geral (sem controles)


```{r}
mod1.2.16.1 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.16.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.16.1$residuals)
boxplot(mod1.2.16.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.16.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.16.1)
```


### mod1.2.17: Quali_PAS = Monitoramento Geral (com controles)

```{r}
mod1.2.17 <- plm(Quali_PAS ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.17,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.17$residuals)
boxplot(mod1.2.17$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.17)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.17)
```



### mod1.2.17.1: Quali_PAS = Monitoramento Geral (sem controles)


```{r}
mod1.2.17.1 <- plm(Quali_PAS ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.17.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.17.1$residuals)
boxplot(mod1.2.17.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.17.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.1.1)
```


### mod1.2.18: Contábil_PAS = Monitoramento Geral (com controles)

```{r}
mod1.2.18 <- plm(Contábil_PAS ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.18,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.18$residuals)
boxplot(mod1.2.18$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.18)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.18)
```



### mod1.2.18.1: Contábil_PAS = Monitoramento Geral (sem controles)


```{r}
mod1.2.18.1 <- plm(Contábil_PAS ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.18.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.18.1$residuals)
boxplot(mod1.2.18.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.18.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.18.1)
```


### mod1.2.19: Financeiro_PAS = Monitoramento Geral (com controles)

```{r}
mod1.2.19 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.19,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.19$residuals)
boxplot(mod1.2.19$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.19)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.19)
```



### mod1.2.19.1: Financeiro_PAS = Monitoramento Geral (sem controles)


```{r}
mod1.2.19.1 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.19.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.19.1$residuals)
boxplot(mod1.2.19.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.19.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.19.1)
```


### mod1.2.20: Outros_PAS = Monitoramento Geral (com controles)

```{r}
mod1.2.20 <- plm(Outros_PAS ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.20,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.20$residuals)
boxplot(mod1.2.20$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.20)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.1)
```

### mod1.2.20.1: Outros_PAS = Monitoramento Geral (sem controles)


```{r}
mod1.2.20.1 <- plm(Outros_PAS ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("TICKER","ANO","SETOR"),
                 model = "within")
summary(mod1.2.20.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.20.1$residuals)
boxplot(mod1.2.20.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.20.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.20.1)
```


### mod1.2.21: Culpado_PAS = Monitoramento Geral (com controles)

```{r}
mod1.2.21 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_GERAL) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.2.21,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.21$residuals)
boxplot(mod1.2.21$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.21)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.21)
```



### mod1.2.21.1: Culpado_PAS = Monitoramento Geral (sem controles)


```{r}
mod1.2.21.1 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_GERAL),
                 data = dados_logit,
                 index = c ("TICKER","ANO","SETOR"),
                 model = "within")
summary(mod1.2.21.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod1.2.21.1$residuals)
boxplot(mod1.2.21.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod1.2.21.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod1.2.21.1)
```


# RDD

## Legendas

mod2.1.1.2010: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.1.1.2010: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.2.2011: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.2.1.2011: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.3.2012: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.3.1.2012: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.4.2013: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.4.1.2013: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.5.2014: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.5.1.2014: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.6.2015: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.6.1.2015: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.7.2016: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.7.1.2016: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.8.2017: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.8.1.2017: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.9.2018: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.9.1.2018: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.10.2019: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.10.1.2019: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.11.2020: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.11.1.2020: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.11.2021: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.11.1.2021: Reapreasentacao = Monitoramento Diferenciado (sem controles)
mod2.1.11.2022: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.11.1.2022: Reapreasentacao = Monitoramento Diferenciado (sem controles)

mod2.1.12.2010: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.12.1.2010: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.13.2011: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.13.1.2011: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.14.2012: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.14.1.2012: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.15.2013: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.15.1.2013: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.16.2014: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.16.1.2014: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.17.2015: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.17.1.2015: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.18.2016: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.18.1.2016: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.19.2017: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.19.1.2017: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.20.2018: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.20.1.2018: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.21.2019: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.21.1.2019: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.22.2020: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.22.1.2020: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.23.2021: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.23.1.2021: Reapreasentacao = Monitoramento Especial (sem controles)
mod2.1.24.2022: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.24.1.2022: Reapreasentacao = Monitoramento Especial (sem controles)

mod2.2.1.2010: PAS = Monitoramento Diferenciado (com controles)
mod2.2.1.1.2010: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.2.2011: PAS = Monitoramento Diferenciado (com controles)
mod2.2.2.1.2011: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.3.2012: PAS = Monitoramento Diferenciado (com controles)
mod2.2.3.1.2012: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.4.2013: PAS = Monitoramento Diferenciado (com controles)
mod2.2.4.1.2013: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.5.2014: PAS = Monitoramento Diferenciado (com controles)
mod2.2.5.1.2014: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.6.2015: PAS = Monitoramento Diferenciado (com controles)
mod2.2.6.1.2015: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.7.2016: PAS = Monitoramento Diferenciado (com controles)
mod2.2.7.1.2016: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.8.2017: PAS = Monitoramento Diferenciado (com controles)
mod2.2.8.1.2017: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.9.2018: PAS = Monitoramento Diferenciado (com controles)
mod2.2.9.1.2018: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.10.2019: PAS = Monitoramento Diferenciado (com controles)
mod2.2.10.1.2019: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.11.2020: PAS = Monitoramento Diferenciado (com controles)
mod2.2.11.1.2020: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.12.2021: PAS = Monitoramento Diferenciado (com controles)
mod2.2.12.1.2021: PAS = Monitoramento Diferenciado (sem controles)
mod2.2.13.2022: PAS = Monitoramento Diferenciado (com controles)
mod2.2.13.1.2022: PAS = Monitoramento Diferenciado (sem controles)

mod2.2.14.2010: PAS = Monitoramento Especial (com controles)
mod2.2.14.1.2010: PAS = Monitoramento Especial (sem controles)
mod2.2.15.2011: PAS = Monitoramento Especial (com controles)
mod2.2.15.1.2011: PAS = Monitoramento Especial (sem controles)
mod2.2.16.2012: PAS = Monitoramento Especial (com controles)
mod2.2.16.1.2012: PAS = Monitoramento Especial (sem controles)
mod2.2.17.2013: PAS = Monitoramento Especial (com controles)
mod2.2.17.1.2013: PAS = Monitoramento Especial (sem controles)
mod2.2.18.2014: PAS = Monitoramento Especial (com controles)
mod2.2.18.1.2014: PAS = Monitoramento Especial (sem controles)
mod2.2.19.2015: PAS = Monitoramento Especial (com controles)
mod2.2.19.1.2015: PAS = Monitoramento Especial (sem controles)
mod2.2.20.2016: PAS = Monitoramento Especial (com controles)
mod2.2.20.1.2016: PAS = Monitoramento Especial (sem controles)
mod2.2.21.2017: PAS = Monitoramento Especial (com controles)
mod2.2.21.1.2017: PAS = Monitoramento Especial (sem controles)
mod2.2.22.2018: PAS = Monitoramento Especial (com controles)
mod2.2.22.1.2018: PAS = Monitoramento Especial (sem controles)
mod2.2.23.2019: PAS = Monitoramento Especial (com controles)
mod2.2.23.1.2019: PAS = Monitoramento Especial (sem controles)
mod2.2.24.2020: PAS = Monitoramento Especial (com controles)
mod2.2.24.1.2020: PAS = Monitoramento Especial (sem controles)
mod2.2.25.2021: PAS = Monitoramento Especial (com controles)
mod2.2.25.1.2021: PAS = Monitoramento Especial (sem controles)
mod2.2.26.2022: PAS = Monitoramento Especial (com controles)
mod2.2.26.1.2022: PAS = Monitoramento Especial (sem controles)


## Criando nova base para RDD

```{r}
# Vetor com os nomes das colunas que você deseja selecionar
dados_rdd <- dados %>%
  dplyr::select("TICKER", "ANO", "RECEITA", "TRATAMENTO", "PAS", "Culpado_PAS", "Quanti_PAS", "Quali_PAS", "Contábil_PAS", "Financeiro_PAS", "Outros_PAS", 
  "Reapresentacao", "Qtd_Reapr", "RE", "RC", "Quali_Reapr", "Quanti_Reapr", "Contábil_Reapr", 
  "Financeiro_Reapr", "Outros_Reapr", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", 
  "MONIT_TRIB_GERAL", "Lei13506t", "ENDIV_w1", "BIG4", "RTT", 
  "TAM_w1", "diffVENDAS_w1", "LCS", 
  "IDADE_w1", "MTB_w1", "ROA_w1", "COVID", 
  "SEG", "SETOR", "ADM_IND_w1", "FIS_EXT", 
  "ADM_DIR_w1", "ADM_EXT_w1", "MAIOR_IND_ADM", "CAIXA_w1", 
  "INTANGIVEL_w1", "PREJUIZO", "DA_KLW_w1", "PL_NEG", "ACIO1_TOTAL", "AUD", "QCF_Reapr", "QCF_PAS") %>%
  na.omit()
```

```{r}
library("openxlsx")
caminho_arquivo_excel <- "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/dados_rdd.xlsx"
write.xlsx(dados_rdd, caminho_arquivo_excel)
```


#### Carregando pacotes

```{r}
library(dplyr)
library(ggplot2)
library(rddtools)
library(magrittr)
```

### Verificando RECEITA

```{r}
view(dados_rdd$RECEITA)
```

## Teste RDD

Teste feito para verificar MONIT_TRIB_GERAL (considerando o diferenciado e especial juntos), com ponto de corte da portaria de 2010. 

Baseado no script: https://rpubs.com/phle/r_tutorial_regression_discontinuity_design

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd <- dados_rdd %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_GERAL == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
lm_geral_2010 <- lm(Reapresentacao ~ threshold + I(RECEITA - 90000000) + threshold:I(RECEITA - 90000000), 
                    data = dados_rdd)

# Resumo do modelo ajustado
summary(lm_geral_2010)

```


```{r}
ggplot(dados_rdd, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_GERAL))) +
  geom_smooth(
    data = dados_rdd %>% dplyr::filter(RECEITA < 90000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd %>% dplyr::filter(RECEITA >= 90000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 90, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Análise de Reapresentação com RDD - Ano de 2010"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()

```

## Criando novas bases para análises separadas

Para analisar o efeito de cada portaria anual, foram criadas novas bases, com um período de 3 anos cada, sendo que o segundo ano é o ponto de corte de cada portaria anual.

```{r}
dados_rdd_2010 <- dados_rdd %>%
  dplyr::filter(ANO >= 2009 & ANO <= 2011)

dados_rdd_2011 <- dados_rdd %>%
  dplyr::filter(ANO >= 2010 & ANO <= 2012)

dados_rdd_2012 <- dados_rdd %>%
  dplyr::filter(ANO >= 2011 & ANO <= 2013)

dados_rdd_2013 <- dados_rdd %>%
  dplyr::filter(ANO >= 2012 & ANO <= 2014)

dados_rdd_2014 <- dados_rdd %>%
  dplyr::filter(ANO >= 2013 & ANO <= 2015)

dados_rdd_2015 <- dados_rdd %>%
  dplyr::filter(ANO >= 2014 & ANO <= 2016)

dados_rdd_2016 <- dados_rdd %>%
  dplyr::filter(ANO >= 2015 & ANO <= 2017)

dados_rdd_2017 <- dados_rdd %>%
  dplyr::filter(ANO >= 2016 & ANO <= 2018)

dados_rdd_2018 <- dados_rdd %>%
  dplyr::filter(ANO >= 2017 & ANO <= 2019)

dados_rdd_2019 <- dados_rdd %>%
  dplyr::filter(ANO >= 2018 & ANO <= 2020)

dados_rdd_2020 <- dados_rdd %>%
  dplyr::filter(ANO >= 2019 & ANO <= 2021)

dados_rdd_2021 <- dados_rdd %>%
  dplyr::filter(ANO >= 2020 & ANO <= 2022)

dados_rdd_2022 <- dados_rdd %>%
  dplyr::filter(ANO >= 2021 & ANO <= 2023)


```

## Reapresentacao

### Monitoramento Diferenciado

#### mod2.1.1.2010: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2010[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
library(dplyr)
```


Variável de controle COVID retirada dos controles até a base dados_rdd_2019, pois só tem 1 nível (0).

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.1.2010 <- lm(Reapresentacao ~ threshold + I(RECEITA - 90000000) + threshold:I(RECEITA - 90000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2010)

# Resumo do modelo ajustado
summary(mod2.1.1.2010)

```

```{r}
# Calculando os valores previstos
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(predicted = predict(mod2.1.1.2010, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2010, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA < 90000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA >= 90000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 90, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2010 (com controles)"
  ) +
  xlim(0, 300) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()

ggsave("grafico_rdd_2010reaprdif.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```

#### mod2.1.1.1.2010: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.1.1.2010 <- lm(Reapresentacao ~ threshold + I(RECEITA - 90000000) + threshold:I(RECEITA - 90000000), 
                    data = dados_rdd_2010)

# Resumo do modelo ajustado
summary(mod2.1.1.1.2010)

```

```{r}
ggplot(dados_rdd_2010, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA < 90000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA >= 90000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 90, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2010 (sem controles)"
  ) +
  xlim(0, 300) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()

ggsave("grafico_rdd_2010reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```


#### mod2.1.2.2011: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2011[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Retirado RTT, por apresentar apenas 1 nível.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.2.2011 <- lm(Reapresentacao ~ threshold + I(RECEITA - 100000000) + threshold:I(RECEITA - 100000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2011)

# Resumo do modelo ajustado
summary(mod2.1.2.2011)

```

```{r}
# Calculando os valores previstos
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(predicted = predict(mod2.1.2.2011, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2011, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA < 100000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA >= 100000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 100, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2011 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()

ggsave("grafico_rdd_2011reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```

#### mod2.1.2.1.2011: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.2.1.2011 <- lm(Reapresentacao ~ threshold + I(RECEITA - 100000000) + threshold:I(RECEITA - 100000000), 
                    data = dados_rdd_2011)

# Resumo do modelo ajustado
summary(mod2.1.2.1.2011)

```

```{r}
ggplot(dados_rdd_2011, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA < 100000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA >= 100000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 100, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2011 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()

ggsave("grafico_rdd_2011reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```


#### mod2.1.3.2012: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2012[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```
Retirado RTT e COVID.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.3.2012 <- lm(Reapresentacao ~ threshold + I(RECEITA - 120000000) + threshold:I(RECEITA - 120000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2012)

# Resumo do modelo ajustado
summary(mod2.1.3.2012)

```

```{r}
# Calculando os valores previstos
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(predicted = predict(mod2.1.3.2012, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2012, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA < 120000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA >= 120000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 120, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2012 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2012reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)

```




#### mod2.1.3.1.2012: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.3.1.2012 <- lm(Reapresentacao ~ threshold + I(RECEITA - 120000000) + threshold:I(RECEITA - 120000000), 
                    data = dados_rdd_2012)

# Resumo do modelo ajustado
summary(mod2.1.3.1.2012)

```

```{r}
ggplot(dados_rdd_2012, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA < 120000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA >= 120000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 120, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2012 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2012reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.4.2013: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2013[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```


```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.4.2013 <- lm(Reapresentacao ~ threshold + I(RECEITA - 135000000) + threshold:I(RECEITA - 135000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2013)

# Resumo do modelo ajustado
summary(mod2.1.4.2013)

```

```{r}
# Calculando os valores previstos
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(predicted = predict(mod2.1.4.2013, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2013, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA < 135000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA >= 135000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 135, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2013 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2013reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.4.1.2013: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.4.1.2013 <- lm(Reapresentacao ~ threshold + I(RECEITA - 135000000) + threshold:I(RECEITA - 135000000), 
                    data = dados_rdd_2013)

# Resumo do modelo ajustado
summary(mod2.1.4.1.2013)

```

```{r}
ggplot(dados_rdd_2013, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA < 135000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA >= 135000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 135, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2013 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2013reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.5.2014: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2014[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Desconsiderado COVID.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.5.2014 <- lm(Reapresentacao ~ threshold + I(RECEITA - 150000000) + threshold:I(RECEITA - 150000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(RTT) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2014)

# Resumo do modelo ajustado
summary(mod2.1.5.2014)

```

```{r}
# Calculando os valores previstos
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(predicted = predict(mod2.1.5.2014, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2014, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA < 150000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA >= 150000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 150, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2014 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2014reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.5.1.2014: Reapreasentacao = Monitoramento Diferenciado (sem controles)


```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.5.1.2014 <- lm(Reapresentacao ~ threshold + I(RECEITA - 150000000) + threshold:I(RECEITA - 150000000), 
                    data = dados_rdd_2014)

# Resumo do modelo ajustado
summary(mod2.1.5.1.2014)

```

```{r}
ggplot(dados_rdd_2014, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA < 150000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA >= 150000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 150, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2014 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2014reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.6.2015: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2015[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.6.2015 <- lm(Reapresentacao ~ threshold + I(RECEITA - 165000000) + threshold:I(RECEITA - 165000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(RTT) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2015)

# Resumo do modelo ajustado
summary(mod2.1.6.2015)

```

```{r}
# Calculando os valores previstos
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(predicted = predict(mod2.1.6.2015, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2015, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA < 165000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA >= 165000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 165, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2015 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2015reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.6.1.2015: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.6.1.2015 <- lm(Reapresentacao ~ threshold + I(RECEITA - 165000000) + threshold:I(RECEITA - 165000000), 
                    data = dados_rdd_2015)

# Resumo do modelo ajustado
summary(mod2.1.6.1.2015)

```

```{r}
ggplot(dados_rdd_2015, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA < 165000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA >= 165000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 165, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2015 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2015reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.7.2016: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2016[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Retirado RTT.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.7.2016 <- lm(Reapresentacao ~ threshold + I(RECEITA - 180000000) + threshold:I(RECEITA - 180000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2016)

# Resumo do modelo ajustado
summary(mod2.1.7.2016)

```

```{r}
# Calculando os valores previstos
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(predicted = predict(mod2.1.7.2016, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2016, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA < 180000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA >= 180000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 180, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2016 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2016reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.7.1.2016: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.7.1.2016 <- lm(Reapresentacao ~ threshold + I(RECEITA - 180000000) + threshold:I(RECEITA - 180000000), 
                    data = dados_rdd_2016)

# Resumo do modelo ajustado
summary(mod2.1.7.1.2016)

```

```{r}
ggplot(dados_rdd_2016, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA < 180000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA >= 180000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 180, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2016 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2016reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.8.2017: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2017[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.8.2017 <- lm(Reapresentacao ~ threshold + I(RECEITA - 200000000) + threshold:I(RECEITA - 200000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2017)

# Resumo do modelo ajustado
summary(mod2.1.8.2017)

```

```{r}
# Calculando os valores previstos
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(predicted = predict(mod2.1.8.2017, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2017, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA < 200000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA >= 200000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 200, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2017 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2017reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.8.1.2017: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.8.1.2017 <- lm(Reapresentacao ~ threshold + I(RECEITA - 200000000) + threshold:I(RECEITA - 200000000), 
                    data = dados_rdd_2017)

# Resumo do modelo ajustado
summary(mod2.1.8.1.2017)

```

```{r}
ggplot(dados_rdd_2017, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA < 200000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA >= 200000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 200, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2017 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2017reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.9.2018: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2018[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.9.2018 <- lm(Reapresentacao ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2018)

# Resumo do modelo ajustado
summary(mod2.1.9.2018)

```

```{r}
# Calculando os valores previstos
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(predicted = predict(mod2.1.9.2018, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2018, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA < 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA >= 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2018 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2018reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.9.1.2018: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.9.1.2018 <- lm(Reapresentacao ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000), 
                    data = dados_rdd_2018)

# Resumo do modelo ajustado
summary(mod2.1.9.1.2018)

```

```{r}
ggplot(dados_rdd_2018, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA < 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA >= 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2018 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2018reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.10.2019: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2019[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.10.2019 <- lm(Reapresentacao ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2019)

# Resumo do modelo ajustado
summary(mod2.1.10.2019)

```

```{r}
# Calculando os valores previstos
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(predicted = predict(mod2.1.10.2019, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2019, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA < 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA >= 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2019 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2019reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.10.1.2019: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.10.1.2019 <- lm(Reapresentacao ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000), 
                    data = dados_rdd_2019)

# Resumo do modelo ajustado
summary(mod2.1.10.1.2019)

```

```{r}
ggplot(dados_rdd_2019, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA < 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA >= 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2019 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2019reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.11.2020: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2020[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.11.2020 <- lm(Reapresentacao ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2020)

# Resumo do modelo ajustado
summary(mod2.1.11.2020)

```

```{r}
# Calculando os valores previstos
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(predicted = predict(mod2.1.11.2020, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2020, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA < 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA >= 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2020 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2020reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.11.1.2020: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.11.1.2020 <- lm(Reapresentacao ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000), 
                    data = dados_rdd_2020)

# Resumo do modelo ajustado
summary(mod2.1.11.1.2020)

```

```{r}
ggplot(dados_rdd_2020, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA < 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA >= 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2020 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2020reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.11.2021: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2021[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.11.2021 <- lm(Reapresentacao ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2021)

# Resumo do modelo ajustado
summary(mod2.1.11.2021)

```

```{r}
# Calculando os valores previstos
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(predicted = predict(mod2.1.11.2021, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2021, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA < 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA >= 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2021 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2021reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.11.1.2021: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.11.1.2021 <- lm(Reapresentacao ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000), 
                    data = dados_rdd_2021)

# Resumo do modelo ajustado
summary(mod2.1.11.1.2021)

```

```{r}
ggplot(dados_rdd_2021, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA < 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA >= 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2021 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2021reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```

#### mod2.1.11.2022: Reapresentacao = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2022[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.11.2022 <- lm(Reapresentacao ~ threshold + I(RECEITA - 300000000) + threshold:I(RECEITA - 300000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2022)

# Resumo do modelo ajustado
summary(mod2.1.11.2022)

```

```{r}
# Calculando os valores previstos
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(predicted = predict(mod2.1.11.2022, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2022, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA < 300000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA >= 300000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 300, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2022 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2022reaprdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.11.1.2022: Reapreasentacao = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.11.1.2022 <- lm(Reapresentacao ~ threshold + I(RECEITA - 300000000) + threshold:I(RECEITA - 300000000), 
                    data = dados_rdd_2022)

# Resumo do modelo ajustado
summary(mod2.1.11.1.2022)

```

```{r}
ggplot(dados_rdd_2022, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA < 300000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA >= 300000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 300, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2022 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2022reaprdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


### Monitoramento Especial

#### mod2.1.12.2010: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2010[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Variável de controle COVID retirada dos controles até a base dados_rdd_2019, pois só tem 1 nível (0).

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.12.2010 <- lm(Reapresentacao ~ threshold + I(RECEITA - 400000000) + threshold:I(RECEITA - 400000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2010)

# Resumo do modelo ajustado
summary(mod2.1.12.2010)

```

```{r}
# Calculando os valores previstos
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(predicted = predict(mod2.1.12.2010, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2010, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA < 400000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA >= 400000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 400, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2010 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2010reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.12.1.2010: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.12.1.2010 <- lm(Reapresentacao ~ threshold + I(RECEITA - 400000000) + threshold:I(RECEITA - 400000000), 
                    data = dados_rdd_2010)

# Resumo do modelo ajustado
summary(mod2.1.12.1.2010)

```

```{r}
ggplot(dados_rdd_2010, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA < 400000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA >= 400000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 400, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2010 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2010reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.13.2011: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2011[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```


```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.13.2011 <- lm(Reapresentacao ~ threshold + I(RECEITA - 450000000) + threshold:I(RECEITA - 450000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2011)

# Resumo do modelo ajustado
summary(mod2.1.13.2011)

```

```{r}
# Calculando os valores previstos
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(predicted = predict(mod2.1.13.2011, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2011, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA < 450000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA >= 450000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 450, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2011 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2011reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.13.1.2011: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.13.1.2011 <- lm(Reapresentacao ~ threshold + I(RECEITA - 450000000) + threshold:I(RECEITA - 450000000), 
                    data = dados_rdd_2011)

# Resumo do modelo ajustado
summary(mod2.1.13.1.2011)

```

```{r}
ggplot(dados_rdd_2011, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA < 450000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA >= 450000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 450, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2011 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2011reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.14.2012: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2012[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```
Retirado RTT e COVID.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.14.2012 <- lm(Reapresentacao ~ threshold + I(RECEITA - 500000000) + threshold:I(RECEITA - 500000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2012)

# Resumo do modelo ajustado
summary(mod2.1.14.2012)

```

```{r}
# Calculando os valores previstos
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(predicted = predict(mod2.1.14.2012, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2012, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA < 500000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA >= 500000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 500, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2012 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2012reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.14.1.2012: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.14.1.2012 <- lm(Reapresentacao ~ threshold + I(RECEITA - 500000000) + threshold:I(RECEITA - 500000000), 
                    data = dados_rdd_2012)

# Resumo do modelo ajustado
summary(mod2.1.14.1.2012)

```

```{r}
ggplot(dados_rdd_2012, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA < 500000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA >= 500000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 500, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2012 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2012reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.15.2013: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2013[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```


```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.15.2013 <- lm(Reapresentacao ~ threshold + I(RECEITA - 560000000) + threshold:I(RECEITA - 560000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2013)

# Resumo do modelo ajustado
summary(mod2.1.15.2013)

```

```{r}
# Calculando os valores previstos
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(predicted = predict(mod2.1.15.2013, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2013, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA < 560000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA >= 560000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 560, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2013 (com controles)"
  ) +
  xlim(0, 1000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2013reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.15.1.2013: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.15.1.2013 <- lm(Reapresentacao ~ threshold + I(RECEITA - 560000000) + threshold:I(RECEITA - 560000000), 
                    data = dados_rdd_2013)

# Resumo do modelo ajustado
summary(mod2.1.15.1.2013)

```

```{r}
ggplot(dados_rdd_2013, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA < 560000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA >= 560000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 560, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2013 (sem controles)"
  ) +
  xlim(0, 1000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2013reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.16.2014: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2014[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Desconsiderado COVID.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.16.2014 <- lm(Reapresentacao ~ threshold + I(RECEITA - 900000000) + threshold:I(RECEITA - 900000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(RTT) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2014)

# Resumo do modelo ajustado
summary(mod2.1.16.2014)

```

```{r}
# Calculando os valores previstos
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(predicted = predict(mod2.1.16.2014, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2014, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA < 900000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA >= 900000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 900, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2014 (com controles)"
  ) +
  xlim(0, 1500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2014reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.16.1.2014: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.16.1.2014 <- lm(Reapresentacao ~ threshold + I(RECEITA - 900000000) + threshold:I(RECEITA - 900000000), 
                    data = dados_rdd_2014)

# Resumo do modelo ajustado
summary(mod2.1.16.1.2014)

```

```{r}
ggplot(dados_rdd_2014, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA < 900000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA >= 900000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 900, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2014 (sem controles)"
  ) +
  xlim(0, 1500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2014reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.17.2015: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2015[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.17.2015 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(RTT) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2015)

# Resumo do modelo ajustado
summary(mod2.1.17.2015)

```

```{r}
# Calculando os valores previstos
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(predicted = predict(mod2.1.17.2015, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2015, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2015 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2015reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.17.1.2015: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.17.1.2015 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2015)

# Resumo do modelo ajustado
summary(mod2.1.17.1.2015)

```

```{r}
ggplot(dados_rdd_2015, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2015 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2015reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.18.2016: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2016[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Retirado RTT.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.18.2016 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1100000000) + threshold:I(RECEITA - 1100000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2016)

# Resumo do modelo ajustado
summary(mod2.1.18.2016)

```

```{r}
# Calculando os valores previstos
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(predicted = predict(mod2.1.18.2016, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2016, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA < 1100000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA >= 1100000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1100, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2016 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2016reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.18.1.2016: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.18.1.2016 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1100000000) + threshold:I(RECEITA - 1100000000), 
                    data = dados_rdd_2016)

# Resumo do modelo ajustado
summary(mod2.1.18.1.2016)

```

```{r}
ggplot(dados_rdd_2016, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA < 1100000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA >= 1100000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1100, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2016 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2016reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.19.2017: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2017[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.19.2017 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1800000000) + threshold:I(RECEITA - 1800000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2017)

# Resumo do modelo ajustado
summary(mod2.1.19.2017)

```

```{r}
# Calculando os valores previstos
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(predicted = predict(mod2.1.19.2017, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2017, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA < 1800000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA >= 1800000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1800, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2017 (com controles)"
  ) +
  xlim(0, 2500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2017reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.19.1.2017: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.19.1.2017 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1800000000) + threshold:I(RECEITA - 1800000000), 
                    data = dados_rdd_2017)

# Resumo do modelo ajustado
summary(mod2.1.19.1.2017)

```

```{r}
ggplot(dados_rdd_2017, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA < 1800000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA >= 1800000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1800, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2017 (sem controles)"
  ) +
  xlim(0, 2500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2017reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.20.2018: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2018[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.20.2018 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2018)

# Resumo do modelo ajustado
summary(mod2.1.20.2018)

```

```{r}
# Calculando os valores previstos
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(predicted = predict(mod2.1.20.2018, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2018, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2018 (com controles)"
  ) +
  xlim(0, 1500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2018reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.20.1.2018: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.20.1.2018 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2018)

# Resumo do modelo ajustado
summary(mod2.1.20.1.2018)

```

```{r}
ggplot(dados_rdd_2018, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2018 (sem controles)"
  ) +
  xlim(0, 1500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2018reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.21.2019: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2019[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.21.2019 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2019)

# Resumo do modelo ajustado
summary(mod2.1.21.2019)

```

```{r}
# Calculando os valores previstos
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(predicted = predict(mod2.1.21.2019, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2019, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2019 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2019reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.21.1.2019: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.21.1.2019 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2019)

# Resumo do modelo ajustado
summary(mod2.1.21.1.2019)

```

```{r}
ggplot(dados_rdd_2019, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2019 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2019reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.22.2020: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2020[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.22.2020 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2020)

# Resumo do modelo ajustado
summary(mod2.1.22.2020)

```

```{r}
# Calculando os valores previstos
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(predicted = predict(mod2.1.22.2020, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2020, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2020 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2020reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.1.22.1.2020: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.22.1.2020 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2020)

# Resumo do modelo ajustado
summary(mod2.1.22.1.2020)

```

```{r}
ggplot(dados_rdd_2020, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2020 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2020reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.23.2021: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2021[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.23.2021 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2021)

# Resumo do modelo ajustado
summary(mod2.1.23.2021)

```

```{r}
# Calculando os valores previstos
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(predicted = predict(mod2.1.23.2021, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2021, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2021 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2021reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.23.1.2021: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.23.1.2021 <- lm(Reapresentacao ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2021)

# Resumo do modelo ajustado
summary(mod2.1.23.1.2021)

```

```{r}
ggplot(dados_rdd_2021, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2021 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2021reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.24.2022: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2022[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.24.2022 <- lm(Reapresentacao ~ threshold + I(RECEITA - 2000000000) + threshold:I(RECEITA - 2000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2022)

# Resumo do modelo ajustado
summary(mod2.1.24.2022)

```

```{r}
# Calculando os valores previstos
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(predicted = predict(mod2.1.11.2022, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2022, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA < 2000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA >= 2000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 2000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2022 (com controles)"
  ) +
  xlim(0, 4000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2022reapresp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.1.24.1.2022: Reapreasentacao = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.1.24.1.2022 <- lm(Reapresentacao ~ threshold + I(RECEITA - 2000000000) + threshold:I(RECEITA - 2000000000), 
                    data = dados_rdd_2022)

# Resumo do modelo ajustado
summary(mod2.1.24.1.2022)

```

```{r}
ggplot(dados_rdd_2022, aes(x = RECEITA / 1e6, y = Reapresentacao, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA < 2000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA >= 2000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 2000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "Reapresentação com RDD - Ano de 2022 (sem controles)"
  ) +
  xlim(0, 4000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2022reapresp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```

## PAS

### Monitoramento Diferenciado

#### mod2.2.1.2010: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2010[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Variável de controle COVID retirada dos controles até a base dados_rdd_2019, pois só tem 1 nível (0).

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.1.2010 <- lm(PAS ~ threshold + I(RECEITA - 90000000) + threshold:I(RECEITA - 90000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2010)

# Resumo do modelo ajustado
summary(mod2.2.1.2010)

```

```{r}
# Calculando os valores previstos
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(predicted = predict(mod2.2.1.2010, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2010, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA < 90000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA >= 90000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 90, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "Reapresentação (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2010 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2010pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.1.1.2010: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.1.1.2010 <- lm(PAS ~ threshold + I(RECEITA - 90000000) + threshold:I(RECEITA - 90000000), 
                    data = dados_rdd_2010)

# Resumo do modelo ajustado
summary(mod2.2.1.1.2010)

```

```{r}
ggplot(dados_rdd_2010, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA < 90000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA >= 90000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 90, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2010 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2010pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.2.2011: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2011[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Retirado RTT, por apresentar apenas 1 nível.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.2.2011 <- lm(PAS ~ threshold + I(RECEITA - 450000000) + threshold:I(RECEITA - 450000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2011)

# Resumo do modelo ajustado
summary(mod2.2.2.2011)

```

```{r}
# Calculando os valores previstos
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2011, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2011, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA < 450000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA >= 450000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 450, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2011 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2011pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.2.1.2011: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.2.1.2011 <- lm(PAS ~ threshold + I(RECEITA - 450000000) + threshold:I(RECEITA - 450000000), 
                    data = dados_rdd_2011)

# Resumo do modelo ajustado
summary(mod2.2.2.1.2011)

```

```{r}
ggplot(dados_rdd_2011, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA < 450000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA >= 450000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 450, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2011 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2011pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.3.2012: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2012[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```
Retirado RTT e COVID.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.3.2012 <- lm(PAS ~ threshold + I(RECEITA - 120000000) + threshold:I(RECEITA - 120000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2012)

# Resumo do modelo ajustado
summary(mod2.2.3.2012)

```

```{r}
# Calculando os valores previstos
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(predicted = predict(mod2.2.3.2012, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2012, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA < 120000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA >= 120000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 120, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2012 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2012pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.3.1.2012: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.3.1.2012 <- lm(PAS ~ threshold + I(RECEITA - 120000000) + threshold:I(RECEITA - 120000000), 
                    data = dados_rdd_2012)

# Resumo do modelo ajustado
summary(mod2.2.3.1.2012)

```

```{r}
ggplot(dados_rdd_2012, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA < 120000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA >= 120000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 120, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2012 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2012pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```

#### mod2.2.4.2013: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2013[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```


```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.4.2013 <- lm(PAS ~ threshold + I(RECEITA - 135000000) + threshold:I(RECEITA - 135000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2013)

# Resumo do modelo ajustado
summary(mod2.2.4.2013)

```

```{r}
# Calculando os valores previstos
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(predicted = predict(mod2.2.4.2013, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2013, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA < 135000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA >= 135000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 135, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2013 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2013pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.4.1.2013: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.4.1.2013 <- lm(PAS ~ threshold + I(RECEITA - 135000000) + threshold:I(RECEITA - 135000000), 
                    data = dados_rdd_2013)

# Resumo do modelo ajustado
summary(mod2.2.4.1.2013)

```

```{r}
ggplot(dados_rdd_2013, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA < 135000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA >= 135000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 135, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2013 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2013pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.5.2014: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2014[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Desconsiderado COVID.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.5.2014 <- lm(PAS ~ threshold + I(RECEITA - 150000000) + threshold:I(RECEITA - 150000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(RTT) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2014)

# Resumo do modelo ajustado
summary(mod2.2.5.2014)

```

```{r}
# Calculando os valores previstos
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(predicted = predict(mod2.2.5.2014, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2014, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA < 150000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA >= 150000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 150, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2014 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2014pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```

#### mod2.2.5.1.2014: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.5.1.2014 <- lm(PAS ~ threshold + I(RECEITA - 150000000) + threshold:I(RECEITA - 150000000), 
                    data = dados_rdd_2014)

# Resumo do modelo ajustado
summary(mod2.2.5.1.2014)

```

```{r}
ggplot(dados_rdd_2014, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA < 150000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA >= 150000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 150, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2014 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2014pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```

#### mod2.2.6.2015: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2015[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.6.2015 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(RTT) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2015)

# Resumo do modelo ajustado
summary(mod2.2.6.2015)

```

```{r}
# Calculando os valores previstos
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(predicted = predict(mod2.2.6.2015, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2015, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2015 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2015pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.6.1.2015: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.6.1.2015 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2015)

# Resumo do modelo ajustado
summary(mod2.2.6.1.2015)

```

```{r}
ggplot(dados_rdd_2015, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2015 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2015pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.7.2016: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2016[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Retirado RTT.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.7.2016 <- lm(PAS ~ threshold + I(RECEITA - 180000000) + threshold:I(RECEITA - 180000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2016)

# Resumo do modelo ajustado
summary(mod2.2.7.2016)

```

```{r}
# Calculando os valores previstos
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(predicted = predict(mod2.2.7.2016, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2016, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA < 180000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA >= 180000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 180, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2016 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2016pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.7.1.2016: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.7.1.2016 <- lm(PAS ~ threshold + I(RECEITA - 180000000) + threshold:I(RECEITA - 180000000), 
                    data = dados_rdd_2016)

# Resumo do modelo ajustado
summary(mod2.2.7.1.2016)

```

```{r}
ggplot(dados_rdd_2016, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA < 180000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA >= 180000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 180, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2016 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2016pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```

#### mod2.2.8.2017: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2017[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.8.2017 <- lm(PAS ~ threshold + I(RECEITA - 200000000) + threshold:I(RECEITA - 200000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2017)

# Resumo do modelo ajustado
summary(mod2.2.8.2017)

```

```{r}
# Calculando os valores previstos
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(predicted = predict(mod2.2.8.2017, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2017, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA < 200000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA >= 200000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 200, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2017 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2017pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.8.1.2017: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.8.1.2017 <- lm(PAS ~ threshold + I(RECEITA - 200000000) + threshold:I(RECEITA - 200000000), 
                    data = dados_rdd_2017)

# Resumo do modelo ajustado
summary(mod2.2.8.1.2017)

```

```{r}
ggplot(dados_rdd_2017, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA < 200000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA >= 200000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 200, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2017 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2017pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.9.2018: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2018[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.9.2018 <- lm(PAS ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2018)

# Resumo do modelo ajustado
summary(mod2.2.9.2018)

```

```{r}
# Calculando os valores previstos
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(predicted = predict(mod2.2.9.2018, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2018, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA < 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA >= 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2018 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2018pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.9.1.2018: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.9.1.2018 <- lm(PAS ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000), 
                    data = dados_rdd_2018)

# Resumo do modelo ajustado
summary(mod2.2.9.1.2018)

```

```{r}
ggplot(dados_rdd_2018, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA < 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA >= 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2018 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2018pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.10.2019: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2019[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.10.2019 <- lm(PAS ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2019)

# Resumo do modelo ajustado
summary(mod2.2.10.2019)

```

```{r}
# Calculando os valores previstos
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(predicted = predict(mod2.1.10.2019, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2019, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA < 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA >= 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2019 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2019pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```

#### mod2.2.10.1.2019: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.10.1.2019 <- lm(PAS ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000), 
                    data = dados_rdd_2019)

# Resumo do modelo ajustado
summary(mod2.2.10.1.2019)

```

```{r}
ggplot(dados_rdd_2019, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA < 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA >= 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2019 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2019pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.11.2020: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2020[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.11.2020 <- lm(PAS ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2020)

# Resumo do modelo ajustado
summary(mod2.2.11.2020)

```

```{r}
# Calculando os valores previstos
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(predicted = predict(mod2.2.11.2020, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2020, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA < 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA >= 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2020 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2020pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.11.1.2020: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.11.1.2020 <- lm(PAS ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000), 
                    data = dados_rdd_2020)

# Resumo do modelo ajustado
summary(mod2.2.11.1.2020)

```

```{r}
ggplot(dados_rdd_2020, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA < 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA >= 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2020 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2020pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.12.2021: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2021[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.12.2021 <- lm(PAS ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2021)

# Resumo do modelo ajustado
summary(mod2.2.12.2021)

```

```{r}
# Calculando os valores previstos
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(predicted = predict(mod2.2.12.2021, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2021, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA < 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA >= 250000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2021 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2021pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.12.1.2021: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.12.1.2021 <- lm(PAS ~ threshold + I(RECEITA - 250000000) + threshold:I(RECEITA - 250000000), 
                    data = dados_rdd_2021)

# Resumo do modelo ajustado
summary(mod2.2.12.1.2021)

```

```{r}
ggplot(dados_rdd_2021, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA < 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA >= 250000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 250, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2021 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2021pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```
`



#### mod2.2.13.2022: PAS = Monitoramento Diferenciado (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2022[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.13.2022 <- lm(PAS ~ threshold + I(RECEITA - 300000000) + threshold:I(RECEITA - 300000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2022)

# Resumo do modelo ajustado
summary(mod2.2.13.2022)

```

```{r}
# Calculando os valores previstos
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(predicted = predict(mod2.2.13.2022, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2022, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA < 300000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA >= 300000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 300, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2022 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2022pasdif1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.13.1.2022: PAS = Monitoramento Diferenciado (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.13.1.2022 <- lm(PAS ~ threshold + I(RECEITA - 300000000) + threshold:I(RECEITA - 300000000), 
                    data = dados_rdd_2022)

# Resumo do modelo ajustado
summary(mod2.2.13.1.2022)

```

```{r}
ggplot(dados_rdd_2022, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA < 300000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA >= 300000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 300, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2022 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2022pasdif2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


### Monitoramento Especial


#### mod2.2.14.2010: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2010[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Variável de controle COVID retirada dos controles até a base dados_rdd_2019, pois só tem 1 nível (0).

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.14.2010 <- lm(PAS ~ threshold + I(RECEITA - 400000000) + threshold:I(RECEITA - 400000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(RTT) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2010)

# Resumo do modelo ajustado
summary(mod2.2.14.2010)

```

```{r}
# Calculando os valores previstos
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(predicted = predict(mod2.2.14.2010, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2010, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA < 400000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA >= 400000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 400, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2010 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2010pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.14.1.2010: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2010 <- dados_rdd_2010 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.14.1.2010 <- lm(PAS ~ threshold + I(RECEITA - 400000000) + threshold:I(RECEITA - 400000000), 
                    data = dados_rdd_2010)

# Resumo do modelo ajustado
summary(mod2.2.14.1.2010)

```

```{r}
ggplot(dados_rdd_2010, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA < 400000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2010 %>% dplyr::filter(RECEITA >= 400000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 400, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2010 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2010pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.15.2011: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2011[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Retirado RTT, por apresentar apenas 1 nível.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.15.2011 <- lm(PAS ~ threshold + I(RECEITA - 100000000) + threshold:I(RECEITA - 100000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2011)

# Resumo do modelo ajustado
summary(mod2.2.15.2011)

```

```{r}
# Calculando os valores previstos
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2011, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2011, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA < 100000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA >= 100000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 100, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2011 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2011pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.15.1.2011: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2011 <- dados_rdd_2011 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.15.1.2011 <- lm(PAS ~ threshold + I(RECEITA - 100000000) + threshold:I(RECEITA - 100000000), 
                    data = dados_rdd_2011)

# Resumo do modelo ajustado
summary(mod2.2.15.1.2011)

```

```{r}
ggplot(dados_rdd_2011, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA < 100000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2011 %>% dplyr::filter(RECEITA >= 100000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 100, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2011 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2011pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.16.2012: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2012[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```
Retirado RTT e COVID.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.16.2012 <- lm(PAS ~ threshold + I(RECEITA - 500000000) + threshold:I(RECEITA - 500000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2012)

# Resumo do modelo ajustado
summary(mod2.2.16.2012)

```

```{r}
# Calculando os valores previstos
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2012, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2012, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA < 500000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA >= 500000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 500, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2012 (com controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2012pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.16.1.2012: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2012 <- dados_rdd_2012 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.16.1.2012 <- lm(PAS ~ threshold + I(RECEITA - 500000000) + threshold:I(RECEITA - 500000000), 
                    data = dados_rdd_2012)

# Resumo do modelo ajustado
summary(mod2.2.16.1.2012)

```

```{r}
ggplot(dados_rdd_2012, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA < 500000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2012 %>% dplyr::filter(RECEITA >= 500000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 500, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2012 (sem controles)"
  ) +
  xlim(0, 600) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2012pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.17.2013: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2013[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```


```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.17.2013 <- lm(PAS ~ threshold + I(RECEITA - 560000000) + threshold:I(RECEITA - 560000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2013)

# Resumo do modelo ajustado
summary(mod2.2.17.2013)

```

```{r}
# Calculando os valores previstos
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2013, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2013, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA < 560000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA >= 560000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 560, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2013 (com controles)"
  ) +
  xlim(0, 1000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2013pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.17.1.2013: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2013 <- dados_rdd_2013 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.17.1.2013 <- lm(PAS ~ threshold + I(RECEITA - 560000000) + threshold:I(RECEITA - 560000000), 
                    data = dados_rdd_2013)

# Resumo do modelo ajustado
summary(mod2.2.2.1.2013)

```

```{r}
ggplot(dados_rdd_2013, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA < 560000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2013 %>% dplyr::filter(RECEITA >= 560000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 560, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2013 (sem controles)"
  ) +
  xlim(0, 1000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2013pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```





#### mod2.2.18.2014: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2014[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Desconsiderado COVID.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.18.2014 <- lm(PAS ~ threshold + I(RECEITA - 900000000) + threshold:I(RECEITA - 900000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(RTT) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2014)

# Resumo do modelo ajustado
summary(mod2.2.18.2014)

```

```{r}
# Calculando os valores previstos
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2014, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2014, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA < 900000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA >= 900000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 900, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2014 (com controles)"
  ) +
  xlim(0, 1500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2014pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```




#### mod2.2.18.1.2014: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2014 <- dados_rdd_2014 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.18.1.2014 <- lm(PAS ~ threshold + I(RECEITA - 900000000) + threshold:I(RECEITA - 900000000), 
                    data = dados_rdd_2014)

# Resumo do modelo ajustado
summary(mod2.2.18.1.2014)

```

```{r}
ggplot(dados_rdd_2014, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA < 900000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2014 %>% dplyr::filter(RECEITA >= 900000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 900, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2014 (sem controles)"
  ) +
  xlim(0, 1500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2014pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.19.2015: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2015[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.19.2015 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(RTT) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2015)

# Resumo do modelo ajustado
summary(mod2.2.19.2015)

```

```{r}
# Calculando os valores previstos
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2015, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2015, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2015 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2015pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```




#### mod2.2.19.1.2015: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2015 <- dados_rdd_2015 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.19.1.2015 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2015)

# Resumo do modelo ajustado
summary(mod2.2.19.1.2015)

```

```{r}
ggplot(dados_rdd_2015, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2015 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2015 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2015pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```




#### mod2.2.20.2016: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2016[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

Retirado RTT.

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.20.2016 <- lm(PAS ~ threshold + I(RECEITA - 1100000000) + threshold:I(RECEITA - 1100000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2016)

# Resumo do modelo ajustado
summary(mod2.2.20.2016)

```

```{r}
# Calculando os valores previstos
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2016, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2016, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA < 1100000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA >= 1100000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1100, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2016 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2016pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```




#### mod2.2.20.1.2016: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2016 <- dados_rdd_2016 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.20.1.2016 <- lm(PAS ~ threshold + I(RECEITA - 1100000000) + threshold:I(RECEITA - 1100000000), 
                    data = dados_rdd_2016)

# Resumo do modelo ajustado
summary(mod2.2.20.1.2016)

```

```{r}
ggplot(dados_rdd_2016, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA < 1100000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2016 %>% dplyr::filter(RECEITA >= 1100000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1100, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2016 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2016pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.21.2017: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2017[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.21.2017 <- lm(PAS ~ threshold + I(RECEITA - 1800000000) + threshold:I(RECEITA - 1800000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2017)

# Resumo do modelo ajustado
summary(mod2.2.21.2017)

```

```{r}
# Calculando os valores previstos
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2017, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2017, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA < 1800000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA >= 1800000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1800, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2017 (com controles)"
  ) +
  xlim(0, 2500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2017pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.21.1.2017: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2017 <- dados_rdd_2017 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.21.1.2017 <- lm(PAS ~ threshold + I(RECEITA - 1800000000) + threshold:I(RECEITA - 1800000000), 
                    data = dados_rdd_2017)

# Resumo do modelo ajustado
summary(mod2.2.21.1.2017)

```

```{r}
ggplot(dados_rdd_2017, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA < 1800000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2017 %>% dplyr::filter(RECEITA >= 1800000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1800, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2017 (sem controles)"
  ) +
  xlim(0, 2500) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2017pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```




#### mod2.2.22.2018: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2018[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.22.2018 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2018)

# Resumo do modelo ajustado
summary(mod2.2.22.2018)

```

```{r}
# Calculando os valores previstos
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2018, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2018, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2018 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2018pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```



#### mod2.2.2.1.2018: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2018 <- dados_rdd_2018 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.22.1.2018 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2018)

# Resumo do modelo ajustado
summary(mod2.2.22.1.2018)

```

```{r}
ggplot(dados_rdd_2018, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2018 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2018 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2018pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.23.2019: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2019[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_DIF == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.23.2019 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2019)

# Resumo do modelo ajustado
summary(mod2.2.23.2019)

```

```{r}
# Calculando os valores previstos
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2019, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2019, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_DIF))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2019 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2019pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.23.1.2019: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2019 <- dados_rdd_2019 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.23.1.2019 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2019)

# Resumo do modelo ajustado
summary(mod2.2.23.1.2019)
ggsave("grafico_rdd_2019pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```

```{r}
ggplot(dados_rdd_2019, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2019 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2019 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2019pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```




#### mod2.2.24.2020: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2020[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.24.2020 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2020)

# Resumo do modelo ajustado
summary(mod2.2.24.2020)

```

```{r}
# Calculando os valores previstos
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2020, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2020, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2020 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2020pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```


#### mod2.2.24.1.2020: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2020 <- dados_rdd_2020 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.24.1.2020 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2020)

# Resumo do modelo ajustado
summary(mod2.2.24.1.2020)

```

```{r}
ggplot(dados_rdd_2020, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2020 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2020 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2020pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```




#### mod2.2.25.2021: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2021[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.25.2021 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2021)

# Resumo do modelo ajustado
summary(mod2.2.25.2021)

```

```{r}
# Calculando os valores previstos
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2021, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2021, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA < 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA >= 1000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2021 (com controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2021pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```





#### mod2.2.25.1.2021: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2021 <- dados_rdd_2021 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.25.1.2021 <- lm(PAS ~ threshold + I(RECEITA - 1000000000) + threshold:I(RECEITA - 1000000000), 
                    data = dados_rdd_2021)

# Resumo do modelo ajustado
summary(mod2.2.25.1.2021)

```

```{r}
ggplot(dados_rdd_2021, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA < 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2021 %>% dplyr::filter(RECEITA >= 1000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 1000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2021 (sem controles)"
  ) +
  xlim(0, 2000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2021pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```




#### mod2.2.26.2022: PAS = Monitoramento Especial (com controles)

```{r}
# Verificar os níveis de cada variável categórica
sapply(dados_rdd_2022[, c("PREJUIZO", "AUD", "RTT", "LCS", "COVID", "MAIOR_IND_ADM", "ACIO1_TOTAL", "SEG")], 
       function(x) unique(x))
```

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.26.2022 <- lm(PAS ~ threshold + I(RECEITA - 2000000000) + threshold:I(RECEITA - 2000000000) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + 
                    IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 +
                    factor(AUD) + factor(COVID) + factor(LCS) +
                    factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                    data = dados_rdd_2022)

# Resumo do modelo ajustado
summary(mod2.2.26.2022)

```

```{r}
# Calculando os valores previstos
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(predicted = predict(mod2.2.2.2022, newdata = .))

# Criando o gráfico
ggplot(dados_rdd_2022, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  # Linha de regressão antes do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA < 2000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA >= 2000000000), 
    aes(y = predicted),  # Usando valores previstos
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 2000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2022 (com controles)"
  ) +
  xlim(0, 4000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2022pasesp1.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```




#### mod2.2.26.1.2022: PAS = Monitoramento Especial (sem controles)

```{r}
# Criando uma variável de limiar baseada no monitoramento
dados_rdd_2022 <- dados_rdd_2022 %>%
  dplyr::mutate(threshold = ifelse(MONIT_TRIB_ESP == 1, 1, 0)) # 1 = monitorado, 0 = não monitorado

# Ajustando o modelo com inclinações diferentes para monitorados e não monitorados
mod2.2.26.1.2022 <- lm(PAS ~ threshold + I(RECEITA - 2000000000) + threshold:I(RECEITA - 2000000000), 
                    data = dados_rdd_2022)

# Resumo do modelo ajustado
summary(mod2.2.26.1.2022)

```

```{r}
ggplot(dados_rdd_2022, aes(x = RECEITA / 1e6, y = PAS, color = as.factor(MONIT_TRIB_ESP))) +
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA < 2000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "blue"
  ) +
  # Linha de regressão depois do corte
  geom_smooth(
    data = dados_rdd_2022 %>% dplyr::filter(RECEITA >= 2000000000), 
    method = "lm",
    formula = y ~ x,
    se = FALSE,
    size = 1.2,
    color = "red"
  ) +
  # Linha vertical indicando o ponto de corte
  geom_vline(xintercept = 2000, color = "black", linetype = "dashed", size = 1) +  
  # Ajustando as cores e a legenda
  scale_color_manual(
    values = c("0" = "blue", "1" = "red"),
    labels = c("Não Monitorado", "Monitorado"),
    name = "Grupo"
  ) +
  labs(
    y = "PAS (dummy: 1 = sim, 0 = não)",
    x = "Receita (Milhões de R$)",
    title = "PAS com RDD - Ano de 2022 (sem controles)"
  ) +
  xlim(0, 4000) +  # Ajustar o intervalo do eixo X (em milhões)
  theme_minimal()
ggsave("grafico_rdd_2022pasesp2.jpeg", device = "jpeg", width = 10, height = 6, dpi = 300)
```





# Lei13506t (mod3)

### Legendas Modelos

mod3.1.1: Reapresentacao = lei (com controles)
mod3.1.1.1: Reapreasentacao = lei (sem controles)
mod3.1.2: RE = lei (com controles)
mod3.1.2.1: RE = lei (sem controles)
mod3.1.3: RC = lei (com controles) 
mod3.1.3.1: RC = lei (sem controles)
mod3.1.4: Quali_Reapr = lei (com controles)
mod3.1.4.1: Quali_Reapr = lei (sem controles)
mod3.1.5: Quanti_Reapr = lei (com controles)
mod3.1.5.1: Quanti_Reapr = lei (sem controles)
mod3.1.6: Contábil_Reapr = lei (com controles)
mod3.1.6.1: Contábil_Reapr = lei (sem controles)
mod3.1.7: Financeiro_Reapr = lei (com controles)
mod3.1.7.1: Financeiro_Reapr = lei (sem controles)
mod3.1.8: Outros_Reapr = lei (com controles)
mod3.1.8.1: Outros_Reapr = lei (sem controles)
mod3.1.9: Qtd_Reapr = lei (com controles)
mod3.1.9.1: Qtd_Reapr = lei (sem controles)

mod3.2.1: PAS = lei (com controles)
mod3.2.1.1: PAS = lei (sem controles)
mod3.2.2: Quanti_PAS = lei (com controles)
mod3.2.2.1: Quanti_PAS = lei (sem controles)
mod3.2.3: Quali_PAS = lei (com controles) 
mod3.2.3.1: Quali_PAS = lei (sem controles)
mod3.2.4: Contábil_PAS = lei (com controles)
mod3.2.4.1: Contábil_PAS = lei (sem controles)
mod3.2.5: Financeiro_PAS = lei (com controles)
mod3.2.5.1: Financeiro_PAS = lei (sem controles)
mod3.2.6: Outros_PAS = lei (com controles)
mod3.2.6.1: Outros_PAS = lei (sem controles)
mod3.2.7: Culpado_PAS = lei (com controles)
mod3.2.7.1: Culpado_PAS = lei (sem controles)

```{r}
summary(dados_logit$AUD)
```



#### TESTE PAS_2

```{r}
export_summs(
  mod3.1.1.1,
  mod3.1.1,
  mod3.2.1.1,
  mod3.2.1,
  testePAS2,
  testePAS3,
  model.names = c("Reapr S", "Reapr C", "PAS S", "PAS C","PAS_2", "PAS_3"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 1-Efeito da Lei 13506 nas Reapresentacoes e PAS",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 1-Efeito da Lei 13506 nas Reapresentacoes e PAS E PAS2.docx"
)

```

```{r}
summary(dados_logit$PAS_2)
```


```{r}
summary(dados_logit$PAS)
```


Pooling

```{r}
testePAS2.final <- pglm(factor(PAS_2) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

testePAS2 <- glm(factor(PAS_2) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probReapr <- testePAS2$fitted.values

summary(testePAS2)

summary(testePAS2.final)

export_summs(testePAS2,testePAS2.final)

```

##### Estatística de Dispersão

Se o valor for próximo de 1, o modelo está bem ajustado.
Se for significativamente maior que 1, isso pode indicar superdispersão.

```{r}
# Calculando a estatística de dispersão
pearson_dispersion <- sum(residuals(testePAS2, type = "pearson")^2) / testePAS2$df.residual
print(pearson_dispersion)

```

1.013921 é bem próximo de 1, o que indica que não há evidência significativa de superdispersão no modelo glm.



##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS_2) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(testePAS2.final), confint(testePAS2.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS2=plot.roc(dados_logit$PAS_2,fitted(testePAS2))
```

```{r}
plot(roc_PAS2,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Especificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(testePAS2, newdata = dados_logit, type = "response")>0.319,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$PAS_2), positive="1")
```



#### TESTE PAS_3

Pooling

```{r}
testePAS3.final <- pglm(factor(PAS_3) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

testePAS3 <- glm(factor(PAS_3) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probReapr <- testePAS3$fitted.values

summary(testePAS3)

summary(testePAS3.final)

export_summs(testePAS3,testePAS3.final)

```

##### Estatística de Dispersão

Se o valor for próximo de 1, o modelo está bem ajustado.
Se for significativamente maior que 1, isso pode indicar superdispersão.

```{r}
# Calculando a estatística de dispersão
pearson_dispersion <- sum(residuals(testePAS3, type = "pearson")^2) / testePAS3$df.residual
print(pearson_dispersion)

```

1.013921 é bem próximo de 1, o que indica que não há evidência significativa de superdispersão no modelo glm.



##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS_3) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(testePAS3.final), confint(testePAS3.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS3=plot.roc(dados_logit$PAS_3,fitted(testePAS3))
```

```{r}
plot(roc_PAS3,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Especificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(testePAS3, newdata = dados_logit, type = "response")>0.319,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$PAS_3), positive="1")
```





### Reapresentacao

```{r}
install.packages("pglm")

```

```{r}
library(pglm)
```

```{r}
install.packages("jtools")
```

```{r}
library(jtools)
```

```{r}
library(pglm)
library(jtools)
```


#### mod3.1.1: Reapr = lei (com controles)

Pooling

```{r}
mod3.1.1.final <- pglm(factor(Reapresentacao) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.1 <- glm(factor(Reapresentacao) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probReapr <- mod3.1.1$fitted.values

summary(mod3.1.1)

summary(mod3.1.1.final)

export_summs(mod3.1.1,mod3.1.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.1.final), confint(mod3.1.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao=plot.roc(dados_logit$Reapresentacao,fitted(mod3.1.1))
```

```{r}
plot(roc_Reapresentacao,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.1, newdata = dados_logit, type = "response")>0.217,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Reapresentacao), positive="1")
```



#### mod3.1.1.1: Reapr = lei (sem controles)

Pooling

```{r}
mod3.1.1.1.final <- pglm(factor(Reapresentacao) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.1.1 <- glm(factor(Reapresentacao) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probReapr.semcont <- mod3.1.1.1$fitted.values

summary(mod3.1.1.1)

summary(mod3.1.1.1.final)

export_summs(mod3.1.1.1,mod3.1.1.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.1.1.final), confint(mod3.1.1.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao.semcont=plot.roc(dados_logit$Reapresentacao,fitted(mod3.1.1.1))
```

```{r}
plot(roc_Reapresentacao.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.1.1, newdata = dados_logit, type = "response")>0.234,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Reapresentacao), positive="1")
```


#### mod3.1.2: RE = lei (com controles)

```{r}
mod3.1.2.final <- pglm(factor(RE) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.2 <- glm(factor(RE) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probRE <- mod3.1.2$fitted.values

summary(mod3.1.2)

summary(mod3.1.2.final)

export_summs(mod3.1.2,mod3.1.2.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.

```{r}
logitor(factor(RE) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.2.final), confint(mod3.1.2.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_RE=plot.roc(dados_logit$RE,fitted(mod3.1.2))
```

```{r}
plot(roc_RE,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.2, newdata = dados_logit, type = "response")>0.172,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$RE), positive="1")
```



#### mod3.1.2.1: RE = lei (sem controles)

Pooling

```{r}
mod3.1.2.1.final <- pglm(factor(RE) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.2.1 <- glm(factor(RE) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probRE.semcont <- mod3.1.2.1$fitted.values

summary(mod3.1.2.1)

summary(mod3.1.2.1.final)

export_summs(mod3.1.2.1,mod3.1.2.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(RE) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.2.1.final), confint(mod3.1.2.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_RE.semcont=plot.roc(dados_logit$RE,fitted(mod3.1.2.1))
```

```{r}
plot(roc_RE.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.2.1.semcont, newdata = dados_logit, type = "response")>0.218,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$RE), positive="1")
```

#### mod3.1.3: RC = lei (com controles) 

```{r}
mod3.1.3.final <- pglm(factor(RC) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.3 <- glm(factor(RC) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probRC <- mod3.1.3$fitted.values

summary(mod3.1.3)

summary(mod3.1.3.final)

export_summs(mod3.1.3,mod3.1.3.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(RC) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.3.final), confint(mod3.1.3.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_RC=plot.roc(dados_logit$RC,fitted(mod3.1.3))
```

```{r}
plot(roc_RC,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.3, newdata = dados_logit, type = "response")>0.013,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$RC), positive="1")
```

#### mod3.1.3.1: RC = lei (sem controles)

Pooling

```{r}
mod3.1.3.1.final <- pglm(factor(RC) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.3.1 <- glm(factor(RC) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probRC.semcont <- mod3.1.3.1$fitted.values

summary(mod3.1.3.1)

summary(mod3.1.3.1.final)

export_summs(mod3.1.3.1,mod3.1.3.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(RC) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.3.1.final), confint(mod3.1.3.1.final)))
```

##### Curva ROC


```{r}
require(pROC)

roc_RC.semcont=plot.roc(dados_logit$RC,fitted(mod3.1.3.1))
```

```{r}
plot(roc_RC.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.3.1, newdata = dados_logit, type = "response")>0.017,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$RC), positive="1")
```

#### mod3.1.4: Quali_Reapr = lei (com controles)

```{r}
mod3.1.4.final <- pglm(factor(Quali_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.4 <- glm(factor(Quali_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probQuali_Reapr <- mod3.1.4$fitted.values

summary(mod3.1.4)

summary(mod3.1.4.final)

export_summs(mod3.1.4,mod3.1.4.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Quali_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.4.final), confint(mod3.1.4.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Quali_Reapr=plot.roc(dados_logit$Quali_Reapr,fitted(mod3.1.4))
```

```{r}
plot(roc_Quali_Reapr,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.4, newdata = dados_logit, type = "response")>0.197,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Quali_Reapr), positive="1")
```

#### mod3.1.4.1: Quali_Reapr = lei (sem controles) 

Pooling

```{r}
mod3.1.4.1.final <- pglm(factor(Quali_Reapr) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.4.1 <- glm(factor(Quali_Reapr) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probQuali_Reapr.semcont <- mod3.1.4.1$fitted.values

summary(mod3.1.4.1)

summary(mod3.1.4.1.final)

export_summs(mod3.1.4.1,mod3.1.4.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Quali_Reapr) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.4.1.final), confint(mod3.1.4.1.final)))
```

##### Curva ROC


```{r}
require(pROC)

roc_Quali_Reapr.semcont=plot.roc(dados_logit$Quali_Reapr,fitted(mod3.1.4.1))
```

```{r}
plot(roc_Quali_Reapr.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.4.1, newdata = dados_logit, type = "response")>0.231,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Quali_Reapr), positive="1")
```

#### mod3.1.5: Quanti_Reapr = lei (com controles)

```{r}
mod3.1.5.final <- pglm(factor(Quanti_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.5 <- glm(factor(Quanti_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probQuanti_Reapr <- mod3.1.5$fitted.values

summary(mod3.1.5)

summary(mod3.1.5.final)

export_summs(mod3.1.5,mod3.1.5.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Quanti_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.5.final), confint(mod3.1.5.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Quanti_Reapr=plot.roc(dados_logit$Quanti_Reapr,fitted(mod3.1.5))
```

```{r}
plot(roc_Quanti_Reapr,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.5, newdata = dados_logit, type = "response")>0.122,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Quanti_Reapr), positive="1")
```


#### mod3.1.5.1: Quanti_Reapr = lei (sem controles) 

Pooling

```{r}
mod3.1.5.1.final <- pglm(factor(Quanti_Reapr) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.5.1 <- glm(factor(Quanti_Reapr) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probQuanti_Reapr.semcont <- mod3.1.5.1$fitted.values

summary(mod3.1.5.1)

summary(mod3.1.5.1.final)

export_summs(mod3.1.5.1,mod3.1.5.1.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Quanti_Reapr) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.5.1.final), confint(mod3.1.5.1.final)))
```


##### Curva ROC

```{r}
require(pROC)

roc_Quanti_Reapr.semcont=plot.roc(dados_logit$Reapresentacao,fitted(mod3.1.5.1))
```

```{r}
plot(roc_Quanti_Reapr.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.5.1, newdata = dados_logit, type = "response")>0.127,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Quanti_Reapr), positive="1")
```

#### mod3.1.6: Contábil_Reapr = lei (com controles)


```{r}
mod3.1.6.final <- pglm(factor(Contábil_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.6 <- glm(factor(Contábil_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probContábil_Reapr <- mod3.1.6$fitted.values

summary(mod3.1.6)

summary(mod3.1.6.final)

export_summs(mod3.1.6,mod3.1.6.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Contábil_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.6.final), confint(mod3.1.6.final)))
```

##### Curva ROC


```{r}
require(pROC)

roc_Contábil_Reapr=plot.roc(dados_logit$Contábil_Reapr,fitted(mod3.1.6))
```

```{r}
plot(roc_Contábil_Reapr,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.6, newdata = dados_logit, type = "response")>0.149,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Contábil_Reapr), positive="1")
```

#### mod3.1.6.1: Contábil_Reapr = lei (sem controles) 

```{r}
mod3.1.6.1.final <- pglm(factor(Contábil_Reapr) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.6.1 <- glm(factor(Contábil_Reapr) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probContábil_Reapr.semcont <- mod3.1.6.1$fitted.values

summary(mod3.1.6.1)

summary(mod3.1.6.1.final)

export_summs(mod3.1.6.1,mod3.1.6.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Contábil_Reapr) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.6.1.final), confint(mod3.1.6.1.final)))
```

##### Curva ROC


```{r}
require(pROC)

roc_Contábil_Reapr.semcont=plot.roc(dados_logit$Contábil_Reapr,fitted(mod3.1.6.1))
```

```{r}
plot(roc_Contábil_Reapr.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.6.1, newdata = dados_logit, type = "response")>0.145,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Contábil_Reapr), positive="1")
```


#### mod3.1.7: Financeiro_Reapr = lei (com controles)

```{r}
mod3.1.7.final <- pglm(factor(Financeiro_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.7 <- glm(factor(Financeiro_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probFinanceiro_Reapr <- mod3.1.7$fitted.values

summary(mod3.1.7)

summary(mod3.1.7.final)

export_summs(mod3.1.7,mod3.1.7.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Financeiro_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.7.final), confint(mod3.1.7.final)))
```


##### Curva ROC

```{r}
require(pROC)

roc_Financeiro_Reapr=plot.roc(dados_logit$Financeiro_Reapr,fitted(mod3.1.7))
```

```{r}
plot(roc_Financeiro_Reapr,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.7, newdata = dados_logit, type = "response")>0.014,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Financeiro_Reapr), positive="1")
```

#### mod3.1.7.1: Financeiro_Reapr = lei (sem controles) 

```{r}
mod3.1.7.1.final <- pglm(factor(Financeiro_Reapr) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.7.1 <- glm(factor(Financeiro_Reapr) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probFinanceiro_Reapr.semcont <- mod3.1.7.1$fitted.values

summary(mod3.1.7.1)

summary(mod3.1.7.1.final)

export_summs(mod3.1.7.1,mod3.1.7.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Financeiro_Reapr) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.7.1.final), confint(mod3.1.7.1.final)))
```



##### Curva ROC

```{r}
require(pROC)

roc_Financeiro_Reapr.semcont=plot.roc(dados_logit$Financeiro_Reapr,fitted(mod3.1.7.1))
```

```{r}
plot(roc_Financeiro_Reapr.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.7.1, newdata = dados_logit, type = "response")>0.005,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Financeiro_Reapr), positive="1")
```

#### mod3.1.8: Outros_Reapr = lei (com controles)


```{r}
mod3.1.8.final <- pglm(factor(Outros_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.8 <- glm(factor(Outros_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probOutros_Reapr <- mod3.1.8$fitted.values

summary(mod3.1.8)

summary(mod3.1.8.final)

export_summs(mod3.1.8,mod3.1.8.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Outros_Reapr) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.8.final), confint(mod3.1.8.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Outros_Reapr=plot.roc(dados_logit$Outros_Reapr,fitted(mod3.1.8))
```


```{r}
plot(roc_Outros_Reapr,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.8, newdata = dados_logit, type = "response")>0.083,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Outros_Reapr), positive="1")
```

#### mod3.1.8.1: Outros_Reapr = lei (sem controles) 

```{r}
mod3.1.8.1.final <- pglm(factor(Outros_Reapr) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.8.1 <- glm(factor(Outros_Reapr) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probOutros_Reapr.semcont <- mod3.1.8.1$fitted.values

summary(mod3.1.8.1)

summary(mod3.1.8.1.final)

export_summs(mod3.1.8.1,mod3.1.8.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Outros_Reapr) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.1.8.1.final), confint(mod3.1.8.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Outros_Reapr=plot.roc(dados_logit$Outros_Reapr,fitted(mod3.1.8.1))
```

```{r}
plot(roc_Outros_Reapr,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```


##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.1.8.1, newdata = dados_logit, type = "response")>0.108,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Outros_Reapr), positive="1")
```

#### mod3.1.9: Qtd_Reapr = lei (com controles)

```{r}
mod3.1.9.final <- pglm(Qtd_Reapr ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = poisson,
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.9 <- glm(Qtd_Reapr ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = poisson, 
              data = dados_logit)

dados_logit$probQtd_Reapr <- mod3.1.9$fitted.values

summary(mod3.1.9)

summary(mod3.1.9.final)

export_summs(mod3.1.9,mod3.1.9.final)

```


##### Teste de dispersão para superdispersão

P-valor do teste de dispersão pequeno (< 0.05): Indica que o modelo Poisson não é adequado devido à superdispersão, e você deve preferir o modelo binomial negativo.

Dispersão >1: indica superdispersão.

```{r}
# Teste de dispersão para superdispersão
dispersiontest(mod3.1.9)
```

p-value < 0,05 = há superdispersão, usar binomial negativo

```{r}
library(MASS)

# Ajustar o modelo binomial negativo
mod3.1.9.nb <- glm.nb(Qtd_Reapr ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
                     data = dados_logit)

# Resumo do modelo binomial negativo
summary(mod3.1.9.nb)

```

###### Comparação dos modelos

```{r}
AIC(mod3.1.9, mod3.1.9.nb)

```

AIC no modelo binomial negativo menor, indicando ser mais adequado.

#### mod3.1.9.zip: Qtd_Reapr = lei13506 (com controles)

```{r}
library(pscl)

# Ajuste do modelo Zero-Inflated Poisson (ZIP) com a variável dependente gerando zeros
mod3.1.9.zip <- zeroinfl(Qtd_Reapr ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG) | 1, 
                        data = dados_logit)

# Resumo do modelo
summary(mod3.1.9.zip)
```





#### mod3.1.9.zinb: Qtd_Reapr = lei13506 (com controles)

```{r}
# Ajustar o modelo Zero-Inflated Negative Binomial (ZINB)
mod3.1.9.zinb <- zeroinfl(Qtd_Reapr ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG) | TAM_w1 + CAIXA_w1, 
                        dist = "negbin", 
                        data = dados_logit)

# Resumo do modelo
summary(mod3.1.9.zinb)

```

##### # Comparar AIC dos modelos ZIP e ZINB

```{r}
AIC(mod3.1.9, mod3.1.9.nb, mod3.1.9.zip, mod3.1.9.zinb)
```

ZINB menor AIC = modelo mais adequado

###### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod3.1.9) 
```


```{r}
car::vif(mod3.1.9.nb) 
```

```{r}
car::vif(mod3.1.9.zip) 
```

```{r}
car::vif(mod3.1.9.zinb) 
```


###### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod3.1.9$residuals)
boxplot(mod3.1.9$residuals)
```

###### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod3.1.9)
```


###### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod3.1.9) 
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod3.1.9)
```


#### mod3.1.9.1: Qtd_Reapr = lei (sem controles)

```{r}
mod3.1.9.1.final <- pglm(Qtd_Reapr ~ factor(Lei13506t),
                   family = poisson,
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.1.9.1 <- glm(Qtd_Reapr ~ factor(Lei13506t), 
              family = poisson, 
              data = dados_logit)

dados_logit$probQtd_Reapr.semcont <- mod3.1.9.1$fitted.values

summary(mod3.1.9.1)

summary(mod3.1.9.1.final)

export_summs(mod3.1.9.1,mod3.1.9.1.final)

```

###### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod3.1.9.1.semcont$residuals)
boxplot(mod3.1.9.1.semcont$residuals)
```


###### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod3.1.9.1.semcont)
```

###### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod3.1.9.1.semcont) 
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod3.1.9.1.semcont)
```


#### mod3.1.9.nb: Qtd_Reapr = lei (com controles)

Binomial negativo

```{r}
library(MASS)
library(AER) # Para o teste de sobredispersão

# Ajuste do modelo Poisson (necessário para o teste de sobredispersão)
mod3.1.9.poisson <- glm(Qtd_Reapr ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
                        family = poisson, 
                        data = dados_logit)

# Teste de Sobredispersão
dispersion_test <- dispersiontest(mod3.1.9.poisson)
print(dispersion_test)

# Ajuste do modelo Binomial Negativa
mod3.1.9.nb <- glm.nb(Qtd_Reapr ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
                      data = dados_logit)

# Salvando valores ajustados
dados_logit$probQtd_Reapr_nb <- mod3.1.9.nb$fitted.values

# Resumo dos modelos
summary(mod3.1.9.poisson) # Modelo Poisson
summary(mod3.1.9.nb)      # Modelo Binomial Negativa

# Comparando os modelos (Poisson vs Binomial Negativa)
library(stargazer)
stargazer(mod3.1.9.poisson, mod3.1.9.nb, type = "text", title = "Comparação de Modelos", single.row = TRUE)

```


Teste de Superdispersão
O teste de superdispersão avalia se o modelo Poisson, que assume dispersão igual a 1, é adequado. Aqui estão os resultados principais:

Estatística z: 5.2659
p-valor: 6.974e-08
Hipótese alternativa: a dispersão verdadeira é maior que 1
Estimativa da dispersão: 1.314903
Conclusão:
O p-valor muito baixo (< 0.001) indica que há evidência forte contra a hipótese nula (de que a dispersão é igual a 1). Isso significa que o modelo Poisson apresenta superdispersão (dispersion > 1), justificando o uso de um modelo mais flexível, como o modelo Binomial Negativa.

Comparação dos Modelos: Poisson vs. Binomial Negativa
Os resultados dos dois modelos sugerem algumas diferenças importantes:

Coeficientes e Significância Estatística:

Os coeficientes estimados para a maioria das variáveis são semelhantes nos dois modelos, mas os erros padrão no modelo Binomial Negativa são ligeiramente maiores, refletindo a correção para superdispersão.
Algumas variáveis se tornam mais significativas no modelo Binomial Negativa, como:
CAIXA_w1: impacto negativo mais forte (-1.059) com significância a 1% (p<0.01).
INTANGIVEL_w1: impacto positivo significativo em ambos os modelos, mas com maior força no Binomial Negativa.
factor(SEG).L e factor(SEG).Q mantêm significância elevada (p<0.001).
Parâmetro Theta (Binomial Negativa):

O parâmetro theta (1.075) indica o grau de dispersão adicional presente no modelo Binomial Negativa.
Qualidade do Ajuste:

Log-Likelihood: O modelo Binomial Negativa apresenta um log-likelihood mais alto (-2186.804 contra -2238.439), indicando melhor ajuste aos dados.
AIC: O AIC do modelo Binomial Negativa (4421.608) é menor que o do Poisson (4524.878), sugerindo que ele é mais adequado para esses dados.
Interpretação dos Coeficientes no Modelo Binomial Negativa
Os coeficientes representam o efeito marginal logarítmico das variáveis preditoras sobre a variável dependente (Qtd_Reapr).

Variáveis Significativas:

factor(Lei13506t)1: A adoção da Lei 13506 tem impacto positivo na Qtd_Reapr, indicando que o número de reapresentações é maior em empresas impactadas por essa legislação.
ROA_w1: Empresas com maior rentabilidade (ROA) têm mais reapresentações, mas o efeito é marginalmente significativo (p<0.1).
ENDIV_w1: O aumento no endividamento está positivamente associado à quantidade de reapresentações (p<0.05).
CAIXA_w1: Empresas com mais caixa têm menos reapresentações, possivelmente porque conseguem gerenciar melhor suas operações.
factor(RTT)1: A presença de RTT está fortemente associada a mais reapresentações (p<0.001).
factor(SEG).L e factor(SEG).Q: Indicam que o setor econômico impacta significativamente o número de reapresentações.
Variáveis Não Significativas:

IDADE_w1, DA_KLW_w1, factor(PREJUIZO)1, factor(BIG4)1, factor(COVID)1, entre outras, não mostraram significância estatística neste modelo.


### PAS

#### mod3.2.1: PAS = lei (com controles)

Pooling

```{r}
mod3.2.1.final <- pglm(factor(PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.1 <- glm(factor(PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probPAS <- mod3.2.1$fitted.values

summary(mod3.2.1)

summary(mod3.2.1.final)

export_summs(mod3.2.1,mod3.2.1.final)

```

##### Estatística de Dispersão

Se o valor for próximo de 1, o modelo está bem ajustado.
Se for significativamente maior que 1, isso pode indicar superdispersão.

```{r}
# Calculando a estatística de dispersão
pearson_dispersion <- sum(residuals(mod3.2.1, type = "pearson")^2) / mod3.2.1$df.residual
print(pearson_dispersion)

```





##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.1.final), confint(mod3.2.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS=plot.roc(dados_logit$PAS,fitted(mod3.2.1))
```


```{r}
plot(roc_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.1, newdata = dados_logit, type = "response")>0.344,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$PAS), positive="1")
```









#### mod3.2.1.1: PAS = lei (sem controles) 

Pooling

```{r}
mod3.2.1.1.final <- pglm(factor(PAS) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.1.1 <- glm(factor(PAS) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probPASsemcont <- mod3.2.1.1$fitted.values

summary(mod3.2.1.1)

summary(mod3.2.1.1.final)

export_summs(mod3.2.1.1,mod3.2.1.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.1.1.final), confint(mod3.2.1.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS.semcont=plot.roc(dados_logit$PAS,fitted(mod3.2.1.1))
```

```{r}
plot(roc_PAS.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```



##### Matriz de confusão

Especificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.1.1, newdata = dados_logit, type = "response")>0.181,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$PAS), positive="1")
```

#### mod3.2.2: Quanti_PAS = lei (com controles)

```{r}
mod3.2.2.final <- pglm(factor(Quanti_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.2 <- glm(factor(Quanti_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probQuanti_PAS <- mod3.2.2$fitted.values

summary(mod3.2.2)

summary(mod3.2.2.final)

export_summs(mod3.2.2,mod3.2.2.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Quanti_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.2.final), confint(mod3.2.2.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Quanti_PAS=plot.roc(dados_logit$Quanti_PAS,fitted(mod3.2.2))
```


```{r}
plot(roc_Quanti_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.2, newdata = dados_logit, type = "response")>0.023,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Quanti_PAS), positive="1")
```

#### mod3.2.2.1: Quanti_PAS = lei (sem controles) 

```{r}
mod3.2.2.1.final <- pglm(factor(Quanti_PAS) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.2.1 <- glm(factor(Quanti_PAS) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probQuanti_PAS.semcont <- mod3.2.2.1$fitted.values

summary(mod3.2.2.1)

summary(mod3.2.2.1.final)

export_summs(mod3.2.2.1,mod3.2.2.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Quanti_PAS) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.2.1.final), confint(mod3.2.2.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Quanti_PAS.semcont=plot.roc(dados_logit$Quanti_PAS,fitted(mod3.1.1))
```


```{r}
plot(roc_Quanti_PAS.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.2.1, newdata = dados_logit, type = "response")>0.252,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Quanti_PAS), positive="1")
```

#### mod3.2.3: Quali_PAS = lei (com controles) 

```{r}
mod3.2.3.final <- pglm(factor(Quali_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.3 <- glm(factor(Quali_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probQuali_PAS <- mod3.2.3$fitted.values

summary(mod3.2.3)

summary(mod3.2.3.final)

export_summs(mod3.2.3,mod3.2.3.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Quali_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.3.final), confint(mod3.2.3.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Quali_PAS=plot.roc(dados_logit$Quali_PAS,fitted(mod3.2.3))
```

```{r}
plot(roc_Quali_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.3, newdata = dados_logit, type = "response")>0.055,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Quali_PAS), positive="1")
```

#### mod3.2.3.1: Quali_PAS = lei (sem controles)

```{r}
mod3.2.3.1.final <- pglm(factor(Quali_PAS) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.3.1 <- glm(factor(Quali_PAS) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probQuali_PAS.semcont <- mod3.2.3.1$fitted.values

summary(mod3.2.3.1)

summary(mod3.2.3.1.final)

export_summs(mod3.2.3.1,mod3.2.3.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Quali_PAS) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.3.1.final), confint(mod3.2.3.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Quali_PAS.semcont=plot.roc(dados_logit$Quali_PAS,fitted(mod3.2.3.1))
```

```{r}
plot(roc_Quali_PAS.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```


##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.3.1, newdata = dados_logit, type = "response")>0.063,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Quali_PAS), positive="1")
```

#### mod3.2.4: Contabil_PAS = lei (com controles)

```{r}
mod3.2.4.final <- pglm(factor(Contabil_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.4 <- glm(factor(Contabil_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probContabil_PAS <- mod3.2.4$fitted.values

summary(mod3.2.4)

summary(mod3.2.4.final)

export_summs(mod3.2.4,mod3.2.4.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Contabil_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.4.final), confint(mod3.2.4.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Contabil_PAS=plot.roc(dados_logit$Contabil_PAS,fitted(mod3.2.4))
```


```{r}
plot(roc_Contabil_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.4, newdata = dados_logit, type = "response")>0.097,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Contabil_PAS), positive="1")
```

#### mod3.2.4.1: Contábil_PAS = lei (sem controles) 

```{r}
mod3.2.4.1.final <- pglm(factor(Contábil_PAS) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.4.1 <- glm(factor(Contábil_PAS) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probContábil_PAS.semcont <- mod3.2.4.1$fitted.values

summary(mod3.2.4.1)

summary(mod3.2.4.1.final)

export_summs(mod3.2.4.1,mod3.2.4.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Contábil_PAS) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.4.1.final), confint(mod3.2.4.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Contábil_PAS.semcont=plot.roc(dados_logit$Contábil_PAS,fitted(mod3.2.4.1))
```

```{r}
plot(roc_Contábil_PAS.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```


##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.4.1, newdata = dados_logit, type = "response")>0.011,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Contábil_PAS), positive="1")
```

#### mod3.2.5: Financeiro_PAS = lei (com controles)

```{r}
mod3.2.5.final <- pglm(factor(Financeiro_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.5 <- glm(factor(Financeiro_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probFinanceiro_PAS <- mod3.2.5$fitted.values

summary(mod3.2.5)

summary(mod3.2.5.final)

export_summs(mod3.2.5,mod3.2.5.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Financeiro_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.5.final), confint(mod3.2.5.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Financeiro_PAS=plot.roc(dados_logit$Financeiro_PAS,fitted(mod3.2.5))
```

```{r}
plot(roc_Financeiro_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.5, newdata = dados_logit, type = "response")>0.073,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Financeiro_PAS), positive="1")
```

#### mod3.2.5.1: Financeiro_PAS = lei (sem controles)

```{r}
mod3.2.5.1.final <- pglm(factor(Financeiro_PAS) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.5.1 <- glm(factor(Financeiro_PAS) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probFinanceiro_PAS.semcont <- mod3.2.5.1$fitted.values

summary(mod3.2.5.1)

summary(mod3.2.5.1.final)

export_summs(mod3.2.5.1,mod3.2.5.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Financeiro_PAS) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.5.1.final), confint(mod3.2.5.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Financeiro_PAS.semcont=plot.roc(dados_logit$Financeiro_PAS,fitted(mod3.2.5.1))
```

```{r}
plot(roc_Financeiro_PAS.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```



##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.5.1, newdata = dados_logit, type = "response")>0.019,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Financeiro_PAS), positive="1")
```

#### mod3.2.6: Outros_PAS = lei (com controles)

```{r}
mod3.2.6.final <- pglm(factor(Outros_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.6 <- glm(factor(Outros_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probOutros_PAS <- mod3.2.6$fitted.values

summary(mod3.2.6)

summary(mod3.2.6.final)

export_summs(mod3.2.6,mod3.2.6.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Outros_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.6.final), confint(mod3.2.6.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Outros_PAS=plot.roc(dados_logit$Outros_PAS,fitted(mod3.2.6))
```

```{r}
plot(roc_Outros_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```


##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.6, newdata = dados_logit, type = "response")>0.038,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Outros_PAS), positive="1")
```

#### mod3.2.6.1: Outros_PAS = lei (sem controles)

```{r}
mod3.2.6.1.final <- pglm(factor(Outros_PAS) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.6.1 <- glm(factor(Outros_PAS) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probOutros_PAS.semcont <- mod3.2.6.1$fitted.values

summary(mod3.2.6.1)

summary(mod3.2.6.1.final)

export_summs(mod3.2.6.1,mod3.2.6.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Outros_PAS) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.6.1.final), confint(mod3.2.6.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Outros_PAS.semcont=plot.roc(dados_logit$Outros_PAS,fitted(mod3.2.6.1))
```

```{r}
plot(roc_Outros_PAS.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.6.1, newdata = dados_logit, type = "response")>0.039,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Outros_PAS), positive="1")
```

#### mod3.2.7: Culpado_PAS = lei (com controles)

```{r}
mod3.2.7.final <- pglm(factor(Culpado_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.7 <- glm(factor(Culpado_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probCulpado_PAS <- mod3.2.7$fitted.values

summary(mod3.2.7)

summary(mod3.2.7.final)

export_summs(mod3.2.7,mod3.2.7.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Culpado_PAS) ~ factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.7.final), confint(mod3.2.7.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Culpado_PAS=plot.roc(dados_logit$Culpado_PAS,fitted(mod3.2.7))
```

```{r}
plot(roc_Culpado_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```



##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.7, newdata = dados_logit, type = "response")>0.260,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Culpado_PAS), positive="1")
```

#### mod3.2.7.1: Culpado_PAS = lei (sem controles)

```{r}
mod3.2.7.1.final <- pglm(factor(Culpado_PAS) ~ factor(Lei13506t),
                   family = binomial('logit'),
                   model = "pooling", data = dados_logit, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod3.2.7.1 <- glm(factor(Culpado_PAS) ~ factor(Lei13506t), 
              family = binomial('logit'), 
              data = dados_logit)

dados_logit$probCulpado_PAS.semcont <- mod3.2.7.1$fitted.values

summary(mod3.2.7.1)

summary(mod3.2.7.1.final)

export_summs(mod3.2.7.1,mod3.2.7.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Culpado_PAS) ~ factor(Lei13506t), 
        data = dados_logit)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod3.2.7.1.final), confint(mod3.2.7.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Culpado_PAS.semcont=plot.roc(dados_logit$Culpado_PAS,fitted(mod3.2.7.1))
```

```{r}
plot(roc_Culpado_PAS.semcont,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```


##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_logit$pdata <- as.factor(ifelse(predict(mod3.2.7.1, newdata = dados_logit, type = "response")>0.060,"1","0"))

confusionMatrix(dados_logit$pdata, factor(dados_logit$Culpado_PAS), positive="1")
```


# Interação Monitoramento x Lei

## Legendas

mod4.1.1: Reapresentacao = Monitoramento Diferenciado * Lei (com controles)
mod4.1.1.1: Reapreasentacao = Monitoramento Diferenciado * Lei (sem controles)
mod4.1.2: RE = Monitoramento Diferenciado * Lei (com controles)
mod4.1.2.1: RE = Monitoramento Diferenciado * Lei (sem controles)
mod4.1.3: RC = Monitoramento Diferenciado * Lei (com controles) 
mod4.1.3.1: RC = Monitoramento Diferenciado * Lei (sem controles)
mod4.1.4: Quali_Reapr = Monitoramento Diferenciado * Lei (com controles)
mod4.1.4.1: Quali_Reapr = Monitoramento Diferenciado * Lei (sem controles)
mod4.1.5: Quanti_Reapr = Monitoramento Diferenciado * Lei (com controles)
mod4.1.5.1: Quanti_Reapr = Monitoramento Diferenciado * Lei (sem controles)
mod4.1.6: Contábil_Reapr = Monitoramento Diferenciado * Lei (com controles)
mod4.1.6.1: Contábil_Reapr = Monitoramento Diferenciado * Lei (sem controles)
mod4.1.7: Financeiro_Reapr = Monitoramento Diferenciado * Lei (com controles)
mod4.1.7.1: Financeiro_Reapr = Monitoramento Diferenciado * Lei (sem controles)
mod4.1.8: Outros_Reapr = Monitoramento Diferenciado * Lei (com controles)
mod4.1.8.1: Outros_Reapr = Monitoramento Diferenciado * Lei (sem controles)
mod4.1.9: Qtd_Reapr = Monitoramento Diferenciado * Lei (com controles)
mod4.1.9.1: Qtd_Reapr = Monitoramento Diferenciado * Lei (sem controles)

mod4.1.10: Reapresentacao = Monitoramento Especial * Lei (com controles)
mod4.1.10.1: Reapreasentacao = Monitoramento Especial * Lei (sem controles)
mod4.1.11: RE = Monitoramento Especial * Lei (com controles)
mod4.1.11.1: RE = Monitoramento Especial * Lei (sem controles)
mod4.1.12: RC = Monitoramento Especial * Lei (com controles) 
mod4.1.12.1: RC = Monitoramento Especial * Lei (sem controles)
mod4.1.13: Quali_Reapr = Monitoramento Especial * Lei (com controles)
mod4.1.13.1: Quali_Reapr = Monitoramento Especial * Lei (sem controles)
mod4.1.14: Quanti_Reapr = Monitoramento Especial * Lei (com controles)
mod4.1.14.1: Quanti_Reapr = Monitoramento Especial * Lei (sem controles)
mod4.1.15: Contábil_Reapr = Monitoramento Especial * Lei (com controles)
mod4.1.15.1: Contábil_Reapr = Monitoramento Especial * Lei (sem controles)
mod4.1.16: Financeiro_Reapr = Monitoramento Especial * Lei (com controles)
mod4.1.16.1: Financeiro_Reapr = Monitoramento Especial * Lei (sem controles)
mod4.1.17: Outros_Reapr = Monitoramento Especial * Lei (com controles)
mod4.1.17.1: Outros_Reapr = Monitoramento Especial * Lei (sem controles)
mod4.1.18: Qtd_Reapr = Monitoramento Especial * Lei (com controles)
mod4.1.18.1: Qtd_Reapr = Monitoramento Especial * Lei (sem controles)

mod4.1.19: Reapresentacao = Monitoramento Geral * Lei (com controles)
mod4.1.19.1: Reapreasentacao = Monitoramento Geral * Lei (sem controles)
mod4.1.20: RE = Monitoramento Geral * Lei (com controles)
mod4.1.20.1: RE = Monitoramento Geral * Lei (sem controles)
mod4.1.21: RC = Monitoramento Geral * Lei (com controles) 
mod4.1.21.1: RC = Monitoramento Geral * Lei (sem controles)
mod4.1.22: Quali_Reapr = Monitoramento Geral * Lei (com controles)
mod4.1.22.1: Quali_Reapr = Monitoramento Geral * Lei (sem controles)
mod4.1.23: Quanti_Reapr = Monitoramento Geral * Lei (com controles)
mod4.1.23.1: Quanti_Reapr = Monitoramento Geral * Lei (sem controles)
mod4.1.24: Contábil_Reapr = Monitoramento Geral * Lei (com controles)
mod4.1.24.1: Contábil_Reapr = Monitoramento Geral * Lei (sem controles)
mod4.1.25: Financeiro_Reapr = Monitoramento Geral * Lei (com controles)
mod4.1.25.1: Financeiro_Reapr = Monitoramento Geral * Lei (sem controles)
mod4.1.26: Outros_Reapr = Monitoramento Geral * Lei (com controles)
mod4.1.26.1: Outros_Reapr = Monitoramento Geral * Lei (sem controles)
mod4.1.27: Qtd_Reapr = Monitoramento Geral * Lei (com controles)
mod4.1.27.1: Qtd_Reapr = Monitoramento Geral * Lei (sem controles)

mod4.2.1: PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.1.1: PAS = Monitoramento Diferenciado * Lei (sem controles)
mod4.2.2: Quanti_PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.2.1: Quanti_PAS = Monitoramento Diferenciado * Lei (sem controles)
mod4.2.3: Quali_PAS = Monitoramento Diferenciado * Lei (com controles) 
mod4.2.3.1: Quali_PAS = Monitoramento Diferenciado * Lei (sem controles)
mod4.2.4: Contábil_PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.4.1: Contábil_PAS = Monitoramento Diferenciado * Lei (sem controles)
mod4.2.5: Financeiro_PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.5.1: Financeiro_PAS = Monitoramento Diferenciado * Lei (sem controles)
mod4.2.6: Outros_PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.6.1: Outros_PAS = Monitoramento Diferenciado * Lei (sem controles)
mod4.2.7: Culpado_PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.7.1: Culpado_PAS = Monitoramento Diferenciado * Lei (sem controles)

mod4.2.8: PAS = Monitoramento Especial * Lei (com controles)
mod4.2.8.1: PAS = Monitoramento Especial * Lei (sem controles)
mod4.2.9: Quanti_PAS = Monitoramento Especial * Lei (com controles)
mod4.2.9.1: Quanti_PAS = Monitoramento Especial * Lei (sem controles)
mod4.2.10: Quali_PAS = Monitoramento Especial * Lei (com controles) 
mod4.2.10.1: Quali_PAS = Monitoramento Especial * Lei (sem controles)
mod4.2.11: Contábil_PAS = Monitoramento Especial * Lei (com controles)
mod4.2.11.1: Contábil_PAS = Monitoramento Especial * Lei (sem controles)
mod4.2.12: Financeiro_PAS = Monitoramento Especial * Lei (com controles)
mod4.2.12.1: Financeiro_PAS = Monitoramento Especial * Lei (sem controles)
mod4.2.13: Outros_PAS = Monitoramento Especial * Lei (com controles)
mod4.2.13.1: Outros_PAS = Monitoramento Especial * Lei (sem controles)
mod4.2.14: Culpado_PAS = Monitoramento Especial * Lei (com controles)
mod4.2.14.1: Culpado_PAS = Monitoramento Especial * Lei (sem controles)

mod4.2.15: PAS = Monitoramento Geral * Lei (com controles)
mod4.2.15.1: PAS = Monitoramento Geral * Lei (sem controles)
mod4.2.16: Quanti_PAS = Monitoramento Geral * Lei (com controles)
mod4.2.16.1: Quanti_PAS = Monitoramento Geral * Lei (sem controles)
mod4.2.17: Quali_PAS = Monitoramento Geral * Lei (com controles) 
mod4.2.17.1: Quali_PAS = Monitoramento Geral * Lei (sem controles)
mod4.2.18: Contábil_PAS = Monitoramento Geral * Lei (com controles)
mod4.2.18.1: Contábil_PAS = Monitoramento Geral * Lei (sem controles)
mod4.2.19: Financeiro_PAS = Monitoramento Geral * Lei (com controles)
mod4.2.19.1: Financeiro_PAS = Monitoramento Geral * Lei (sem controles)
mod4.2.20: Outros_PAS = Monitoramento Geral * Lei (com controles)
mod4.2.20.1: Outros_PAS = Monitoramento Geral * Lei (sem controles)
mod4.2.21: Culpado_PAS = Monitoramento Geral * Lei (com controles)
mod4.2.21.1: Culpado_PAS = Monitoramento Geral * Lei (sem controles)


# Reapresentações

## Monitoramento Diferenciado

#### mod4.1.1: Reapresentacao = Monitoramento Diferenciado * Lei (com controles)


```{r}
mod4.1.1.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.1.pool,robust=TRUE)
```


```{r}
mod4.1.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.1$residuals)
boxplot(mod4.1.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.1)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.1.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.1)
```

#### mod4.1.1.1: Reapreasentacao = Monitoramento Diferenciado * Lei (sem controles)

```{r}
mod4.1.1.1.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.1.1.pool,robust=TRUE)
```


```{r}
mod4.1.1.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.1.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.1.1$residuals)
boxplot(mod4.1.1.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.1.1)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.1.1.pool)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.1.1)
```

#### mod4.1.2: RE = Monitoramento Diferenciado * Lei (com controles)

```{r}
mod4.1.2 <- plm(RE ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.2,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.2$residuals)
boxplot(mod4.1.2$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.2)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.2)
```


#### mod4.1.2.1: RE = Monitoramento Diferenciado * Lei (sem controles)

```{r}
mod4.1.2.1 <- plm(RE ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.2.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.2.1$residuals)
boxplot(mod4.1.2.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.2.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.2.1)
```


#### mod4.1.3: RC = Monitoramento Diferenciado * Lei (com controles)

```{r}
mod4.1.3 <- plm(RC ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.3,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.3$residuals)
boxplot(mod4.1.3$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.3)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.3)
```



#### mod4.1.3.1: RC = Monitoramento Diferenciado * Lei (sem controles)

```{r}
mod4.1.3.1 <- plm(RC ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.3.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.3.1$residuals)
boxplot(mod4.1.3.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.3.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.3.1)
```



#### mod4.1.4: Quali_Reapr = Monitoramento Diferenciado * Lei (com controles)

```{r}
mod4.1.4 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.4,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.4$residuals)
boxplot(mod4.1.4$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.4)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.4)
```



#### mod4.1.4.1: Quali_Reapr = Monitoramento Diferenciado * Lei (sem controles)

```{r}
mod4.1.4.1 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.4.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.4.1$residuals)
boxplot(mod4.1.4.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.4.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.4.1)
```


#### mod4.1.5: Quanti_Reapr = Monitoramento Diferenciado * Lei (com controles)

```{r}
mod4.1.5.pool <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.5.pool,robust=TRUE)
```


```{r}
mod4.1.5 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.5,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.5$residuals)
boxplot(mod4.1.5$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.5)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.5.pool)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.5)
```


#### mod4.1.5.1: Quanti_Reapr = Monitoramento Diferenciado * Lei (sem controles)

```{r}
mod4.1.5.1 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.5.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.5.1$residuals)
boxplot(mod4.1.5.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.5.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.5.1)
```



#### mod4.1.6: Contábil_Reapr = Monitoramento Diferenciado * Lei (com controles)

```{r}
mod4.1.6.pool <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.6.pool,robust=TRUE)
```


```{r}
mod4.1.6 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.6,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.6$residuals)
boxplot(mod4.1.6$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.6)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.6.pool)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.6)
```


#### mod4.1.6.1: Contábil_Reapr = Monitoramento Diferenciado * Lei (sem controles)

```{r}
mod4.1.6.1 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.6.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.6.1$residuals)
boxplot(mod4.1.6.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.6.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.6.1)
```


#### mod4.1.7: Financeiro_Reapr = Monitoramento Diferenciado * Lei (com controles)

```{r}
mod4.1.7 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.7,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.7$residuals)
boxplot(mod4.1.7$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.7)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.7)
```


#### mod4.1.7.1: Financeiro_Reapr = Monitoramento Diferenciado * Lei (sem controles)

```{r}
mod4.1.7.1 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.7.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.7.1$residuals)
boxplot(mod4.1.7.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.7.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.7.1)
```


#### mod4.1.8: Outros_Reapr = Monitoramento Diferenciado * Lei (com controles)

```{r}
mod4.1.8 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.8,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.8$residuals)
boxplot(mod4.1.8$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.8)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.8)
```


#### mod4.1.8.1: Outros_Reapr = Monitoramento Diferenciado * Lei (sem controles)

```{r}
mod4.1.8.1 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.8.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.8.1$residuals)
boxplot(mod4.1.8.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.8.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.8.1)
```


#### mod4.1.9: Qtd_Reapr = Monitoramento Diferenciado * Lei (com controles)

```{r}
mod4.1.9.pool <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.9.pool,robust=TRUE)
```


```{r}
mod4.1.9 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.9,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.9$residuals)
boxplot(mod4.1.9$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.9)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.9.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.9)
```


#### mod4.1.9.1: Qtd_Reapr = Monitoramento Diferenciado * Lei (sem controles)

```{r}
mod4.1.9.1 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.9.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.9.1$residuals)
boxplot(mod4.1.9.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.9.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.9.1)
```




## Monitoramento Especial

### mod4.1.10: Reapresentacao = Monitoramento Especial * Lei (com controles)

```{r}
mod4.1.10.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod1.1.10.pool,robust=TRUE)
```

```{r}
mod4.1.10 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod1.1.10,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.10$residuals)
boxplot(mod4.1.10$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.10)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.10.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.10)
```



### mod4.1.10.1: Reapreasentacao = Monitoramento Especial * Lei (sem controles)

```{r}
mod4.1.10.1.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.10.1.pool,robust=TRUE)
```


```{r}
mod4.1.10.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.10.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.10.1$residuals)
boxplot(mod4.1.10.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.10.1)
```

#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.10.1.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.10.1)
```




### mod4.1.11: RE = Monitoramento Especial * Lei (com controles)

```{r}
mod4.1.11 <- plm(RE ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.11,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.11$residuals)
boxplot(mod4.1.11$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.11)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.11)
```




### mod4.1.11.1: RE = Monitoramento Especial * Lei (sem controles)

```{r}
mod4.1.11.1 <- plm(RE ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.11.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.11.1$residuals)
boxplot(mod4.1.11.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.11.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.11.1)
```



### mod4.1.12: RC = Monitoramento Especial * Lei (com controles) 

```{r}
mod4.1.12 <- plm(RC ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.12,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.12$residuals)
boxplot(mod4.1.12$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.12)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.12)
```



### mod4.1.12.1: RC = Monitoramento Especial * Lei (sem controles)

```{r}
mod4.1.12.1 <- plm(RC ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.12.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.12.1$residuals)
boxplot(mod4.1.12.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.12.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.12.1)
```


### mod4.1.13: Quali_Reapr = Monitoramento Especial * Lei (com controles)

```{r}
mod4.1.13 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.13,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.13$residuals)
boxplot(mod4.1.13$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.13)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.13)
```


### mod4.1.13.1: Quali_Reapr = Monitoramento Especial * Lei (sem controles)

```{r}
mod4.1.13.1 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.13.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.13.1$residuals)
boxplot(mod4.1.13.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.13.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.13.1)
```


### mod4.1.14: Quanti_Reapr = Monitoramento Especial * Lei (com controles)

```{r}
mod4.1.14.pool <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.14.pool,robust=TRUE)
```


```{r}
mod4.1.14 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.14,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.14$residuals)
boxplot(mod4.1.14$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.14)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.14.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.14)
```



### mod4.1.14.1: Quanti_Reapr = Monitoramento Especial * Lei (sem controles)

```{r}
mod4.1.14.1 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.14.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.14.1$residuals)
boxplot(mod4.1.14.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.14.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.14.1)
```


### mod4.1.15: Contábil_Reapr = Monitoramento Especial * Lei (com controles)

```{r}
mod4.1.15.pool <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.15.pool,robust=TRUE)
```


```{r}
mod4.1.15 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.15,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.15$residuals)
boxplot(mod4.1.15$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.15)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.15.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.15)
```


### mod4.1.15.1: Contábil_Reapr = Monitoramento Especial * Lei (sem controles)

```{r}
mod4.1.15.1 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.15.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.15.1$residuals)
boxplot(mod4.1.15.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.15.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.15.1)
```


### mod4.1.16: Financeiro_Reapr = Monitoramento Especial * Lei (com controles)

```{r}
mod4.1.16 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.16,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.16$residuals)
boxplot(mod4.1.16$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.16)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.16)
```



### mod4.1.16.1: Financeiro_Reapr = Monitoramento Especial * Lei (sem controles)

```{r}
mod4.1.16.1 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.16.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.16.1$residuals)
boxplot(mod4.1.16.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.16.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.16.1)
```



### mod4.1.17: Outros_Reapr = Monitoramento Especial * Lei (com controles)

```{r}
mod4.1.17 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.17,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.17$residuals)
boxplot(mod4.1.17$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.17)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.17)
```


### mod4.1.17.1: Outros_Reapr = Monitoramento Especial * Lei (sem controles)

```{r}
mod4.1.17.1 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.17.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.17.1$residuals)
boxplot(mod4.1.17.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.17.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.17.1)
```


### mod4.1.18: Qtd_Reapr = Monitoramento Especial * Lei (com controles)

```{r}
mod4.1.18.pool <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.18.pool,robust=TRUE)
```


```{r}
mod4.1.18 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.18,robust=TRUE)
```


```{r}
mod4.1.18 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.18,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.18$residuals)
boxplot(mod4.1.18$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.18)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.18.pool)
```

#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.18)
```



### mod4.1.18.1: Qtd_Reapr = Monitoramento Especial * Lei (sem controles)

```{r}
mod4.1.18.1 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.18.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.18.1$residuals)
boxplot(mod4.1.18.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.18.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.18.1)
```



## Monitoramento Geral

### mod4.1.19: Reapresentacao = Monitoramento Geral * Lei (com controles)

```{r}
mod4.1.19.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.1.19.pool,robust=TRUE)
```


```{r}
mod4.1.19 <- plm(Reapresentacao ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.19,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.19$residuals)
boxplot(mod4.1.19$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.19)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.1.19.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.19)
```



### mod4.1.19.1: Reapreasentacao = Monitoramento Geral * Lei (sem controles)

```{r}
mod4.1.19.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.19.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.19.1$residuals)
boxplot(mod4.1.19.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.19.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.19.1)
```




### mod4.1.20: RE = Monitoramento Geral * Lei (com controles)

```{r}
mod4.1.20 <- plm(RE ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.20,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.20$residuals)
boxplot(mod4.1.20$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.20)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.20)
```



### mod4.1.20.1: RE = Monitoramento Geral * Lei (sem controles)

```{r}
mod4.1.20.1 <- plm(RE ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.20.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.20.1$residuals)
boxplot(mod4.1.20.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.20.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.20.1)
```



### mod4.1.21: RC = Monitoramento Geral * Lei (com controles)

```{r}
mod4.1.21 <- plm(RC ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.21,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.21$residuals)
boxplot(mod4.1.21$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.21)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.21)
```



### mod4.1.21.1: RC = Monitoramento Geral * Lei (sem controles)

```{r}
mod4.1.21.1 <- plm(RC ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.21.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.21.1$residuals)
boxplot(mod4.1.21.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.21.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.21.1)
```



### mod4.1.22: Quali_Reapr = Monitoramento Geral * Lei (com controles)

```{r}
mod4.1.22 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.22,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.22$residuals)
boxplot(mod4.1.22$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.22)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.22)
```



### mod4.1.22.1: Quali_Reapr = Monitoramento Geral * Lei (sem controles)

```{r}
mod4.1.22.1 <- plm(Quali_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.22.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.22.1$residuals)
boxplot(mod4.1.22.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.22.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.22.1)
```



### mod4.1.23: Quanti_Reapr = Monitoramento Geral * Lei (com controles)

```{r}
mod4.1.23 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.23,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.23$residuals)
boxplot(mod4.1.23$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.23)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.23)
```



### mod4.1.23.1: Quanti_Reapr = Monitoramento Geral * Lei (sem controles)

```{r}
mod4.1.23.1 <- plm(Quanti_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.23.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.23.1$residuals)
boxplot(mod4.1.23.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.23.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.23.1)
```



### mod4.1.24: Contábil_Reapr = Monitoramento Geral * Lei (com controles)

```{r}
mod4.1.24 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.24,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.24$residuals)
boxplot(mod4.1.24$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.24)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.24)
```



### mod4.1.24.1: Contábil_Reapr = Monitoramento Geral * Lei (sem controles)

```{r}
mod4.1.24.1 <- plm(Contábil_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.24.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.24.1$residuals)
boxplot(mod4.1.24.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.24.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.24.1)
```



### mod4.1.25: Financeiro_Reapr = Monitoramento Geral * Lei (com controles)

```{r}
mod4.1.25 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.25,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.25$residuals)
boxplot(mod4.1.25$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.25)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.25)
```



### mod4.1.25.1: Financeiro_Reapr = Monitoramento Geral * Lei (sem controles)

```{r}
mod4.1.25.1 <- plm(Financeiro_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.25.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.25.1$residuals)
boxplot(mod4.1.25.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.25.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.25.1)
```



### mod4.1.26: Outros_Reapr = Monitoramento Geral * Lei (com controles)

```{r}
mod4.1.26 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.26,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.26$residuals)
boxplot(mod4.1.26$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.26)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.26)
```



### mod4.1.26.1: Outros_Reapr = Monitoramento Geral * Lei (sem controles)

```{r}
mod4.1.26.1 <- plm(Outros_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.26.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.26.1$residuals)
boxplot(mod4.1.26.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.26.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.26.1)
```



### mod4.1.27: Qtd_Reapr = Monitoramento Geral * Lei (com controles)

#### Teste de dispersão para Binomial Negativo

p-valor indicar significância (< 0.05): Indica superdispersão e sugere o uso do modelo binomial negativo.
p-valor não for significativo: O modelo Poisson pode ser suficiente.

```{r}
# Carregar pacotes necessários
library(AER) # Para o teste de dispersão

# Ajustar o modelo Poisson
mod4.1.27.poisson <- glm(Qtd_Reapr ~ factor(MONIT_TRIB_GERAL) * factor(Lei13506t) + 
                     ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   data = dados_logit,
                   family = poisson(link = "log"))

# Teste de dispersão
dispersiontest(mod4.1.27.poisson)

```
Resultado: presença de superdispersão

#### mod4.1.27.nb: Qtd_Reapr = Monitoramento Geral * Lei (com controles)

```{r}
library(MASS)

mod4.1.27.nb <- glm.nb(Qtd_Reapr ~ factor(MONIT_TRIB_GERAL) * factor(Lei13506t) + 
                         ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                       data = dados_logit)

# Resumo do modelo
summary(mod4.1.27.nb)

```

#### Comparando modelos Poisson x NB

```{r}
AIC(mod4.1.27.poisson, mod4.1.27.nb)

```

Menor AIC em nb = ajuste melhor dos dados


```{r}
mod4.1.27 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("TICKER","ANO","SETOR"),
                 model = "within")
summary(mod4.1.27,robust=TRUE)
```



#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.27$residuals)
boxplot(mod4.1.27$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.27)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.27)
```



### mod4.1.27.1: Qtd_Reapr = Monitoramento Geral * Lei (sem controles)

```{r}
mod4.1.27.1 <- plm(Qtd_Reapr ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.1.27.1,robust=TRUE)
```


#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.1.27.1$residuals)
boxplot(mod4.1.27.1$residuals)
```


#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.1.27.1)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.1.27.1)
```







# PAS

## Monitoramento Diferenciado

### mod4.2.1: PAS = Monitoramento Diferenciado (com controles)


```{r}
mod4.2.1.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.1.pool,robust=TRUE)
```


```{r}
mod4.2.1 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.1$residuals)
boxplot(mod4.2.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.1)
```



##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.1.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.1)
```


### mod4.2.1.1: PAS = Monitoramento Diferenciado (sem controles)

```{r}
mod4.2.1.1.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.1.1.pool,robust=TRUE)
```


```{r}
mod4.2.1.1 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.1.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.1.1$residuals)
boxplot(mod4.2.1.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.1.1)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.1.1.pool)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.1.1)
```



### mod4.2.2: Quanti_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod4.2.2.pool <- plm(Quanti_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.2.pool,robust=TRUE)
```


```{r}
mod4.2.2 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.2,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.2$residuals)
boxplot(mod4.2.2$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.2)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.2.pool)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.2)
```

### mod4.2.2.1: Quanti_PAS = Monitoramento Diferenciado (sem controles)

```{r}
mod4.2.2.1 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.2.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.2.1$residuals)
boxplot(mod4.2.2.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.2.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.2.1)
```

### mod4.2.3: Quali_PAS = Monitoramento Diferenciado (com controles) 

```{r}
mod4.2.3 <- plm(Quali_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.3,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.3$residuals)
boxplot(mod4.2.3$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.3)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.3)
```

### mod4.2.3.1: Quali_PAS = Monitoramento Diferenciado (sem controles)

```{r}
mod4.2.3.1 <- plm(Quali_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.3.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.3.1$residuals)
boxplot(mod4.2.3.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.3.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.3.1)
```

### mod4.2.4: Contabil_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod4.2.4.pool <- plm(Contabil_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.4.pool,robust=TRUE)
```


```{r}
mod4.2.4 <- plm(Contabil_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.4,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.4$residuals)
boxplot(mod4.2.4$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.4)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.4.pool)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.4)
```


### mod4.2.4.1: Contabil_PAS = Monitoramento Diferenciado (sem controles)

```{r}
mod4.2.4.1 <- plm(Contabil_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.4.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.4.1$residuals)
boxplot(mod4.2.4.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.4.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.4.1)
```

### mod4.2.5: Financeiro_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod4.2.5 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.5,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.5$residuals)
boxplot(mod4.2.5$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.5)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.5)
```


### mod4.2.5.1: Financeiro_PAS = Monitoramento Diferenciado (sem controles)

```{r}
mod4.2.5.1 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.5.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.5.1$residuals)
boxplot(mod4.2.5.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.5.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.5.1)
```


### mod4.2.6: Outros_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod4.2.6 <- plm(Outros_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.6,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.6$residuals)
boxplot(mod4.2.6$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.6)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.6)
```

### mod4.2.6.1: Outros_PAS = Monitoramento Diferenciado (sem controles)

```{r}
mod4.2.6.1 <- plm(Outros_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.6.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.6.1$residuals)
boxplot(mod4.2.6.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.6.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.6.1)
```


### mod4.2.7: Culpado_PAS = Monitoramento Diferenciado (com controles)

```{r}
mod4.2.7.pool <- plm(Culpado_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.7.pool,robust=TRUE)
```


```{r}
mod4.2.7 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.7,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.7$residuals)
boxplot(mod4.2.7$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.7)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.7)
```


### mod4.2.7.1: Culpado_PAS = Monitoramento Diferenciado (sem controles)

```{r}
mod4.2.7.1 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_DIF)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.7.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.7.1$residuals)
boxplot(mod4.2.7.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.7.1)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.7.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.7.1)
```


## Monitoramento Especial

### mod4.2.8: PAS = Monitoramento Especial (com controles)

```{r}
mod4.2.8.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.8.pool,robust=TRUE)
```


```{r}
mod4.2.8 <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.8,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.8$residuals)
boxplot(mod4.2.8$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.8)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.8.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.8)
```


### mod4.2.8.1: PAS = Monitoramento Especial (sem controles)

```{r}
mod4.2.8.1.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.8.1.pool,robust=TRUE)
```


```{r}
mod4.2.8.1<- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.8.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.8.1$residuals)
boxplot(mod4.2.8.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.8.1)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.8.1.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.8.1)
```

### mod4.2.9: Quanti_PAS = Monitoramento Especial (com controles)

```{r}
mod4.2.9.pool <- plm(Quanti_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.9.pool,robust=TRUE)
```


```{r}
mod4.2.9 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.9,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.9$residuals)
boxplot(mod4.2.9$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.9)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.9.pool)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.9)
```


### mod4.2.9.1: Quanti_PAS = Monitoramento Especial (sem controles)

```{r}
mod4.2.9.1 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.9.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.9.1$residuals)
boxplot(mod4.2.9.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.9.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.9.1)
```


### mod4.2.10: Quali_PAS = Monitoramento Especial (com controles) 

```{r}
mod4.2.10 <- plm(Quali_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.10,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.10$residuals)
boxplot(mod4.2.10$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.10)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.10)
```

### mod4.2.10.1: Quali_PAS = Monitoramento Especial (sem controles)

```{r}
mod4.2.10.1 <- plm(Quali_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.10.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.10.1$residuals)
boxplot(mod4.2.10.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.10.1)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.10.1)
```

### mod4.2.11: Contabil_PAS = Monitoramento Especial (com controles)

```{r}
mod4.2.11.pool <- plm(Contabil_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.11.pool,robust=TRUE)
```


```{r}
mod4.2.11 <- plm(Contabil_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.11,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.11$residuals)
boxplot(mod4.2.11$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.11)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.11.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.11)
```

### mod4.2.11.1: Contabil_PAS = Monitoramento Especial (sem controles)

```{r}
mod4.2.11.1 <- plm(Contabil_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.11.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.11.1$residuals)
boxplot(mod4.2.11.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.11.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.11.1)
```


### mod4.2.12: Financeiro_PAS = Monitoramento Especial (com controles)

```{r}
mod4.2.12 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.12,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.12$residuals)
boxplot(mod4.2.12$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.12)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.12)
```

### mod4.2.12.1: Financeiro_PAS = Monitoramento Especial (sem controles)

```{r}
mod4.2.12.1 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.12.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.12.1$residuals)
boxplot(mod4.2.12.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.12.1)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.12.1)
```


### mod4.2.13: Outros_PAS = Monitoramento Especial (com controles)

```{r}
mod4.2.13 <- plm(Outros_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.13,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.13$residuals)
boxplot(mod4.2.13$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.13)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.13)
```

### mod4.2.13.1: Outros_PAS = Monitoramento Especial (sem controles)

```{r}
mod4.2.13.1 <- plm(Outros_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.13.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.13.1$residuals)
boxplot(mod4.2.13.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.13.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.13.1)
```

### mod4.2.14: Culpado_PAS = Monitoramento Especial (com controles)

```{r}
mod4.2.14.pool <- plm(Culpado_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.14.pool,robust=TRUE)
```


```{r}
mod4.2.14 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.14,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.14$residuals)
boxplot(mod4.2.14$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.14)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.14.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.14)
```

### mod4.2.14.1: Culpado_PAS = Monitoramento Especial (sem controles)

```{r}
mod4.2.14.1 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_ESP)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.14.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.14.1$residuals)
boxplot(mod4.2.14.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.14.1)
```

##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.14.1)
```

## Monitoramento Geral

### mod4.2.15: PAS = Monitoramento Geral (com controles)

```{r}
mod4.2.15.pool <- plm(PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod4.2.15.pool,robust=TRUE)
```

```{r}
mod4.2.15 <- plm(PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.15,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.15$residuals)
boxplot(mod4.2.15$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.15)
```

##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod4.2.15.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.15)
```


### mod4.2.15.1: PAS = Monitoramento Geral (sem controles)

```{r}
mod4.2.15.1 <- plm(PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.15.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.15.1$residuals)
boxplot(mod4.2.15.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.15.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.15.1)
```


### mod4.2.16: Quanti_PAS = Monitoramento Geral (com controles)

```{r}
mod4.2.16 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.16,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.16$residuals)
boxplot(mod4.2.16$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.16)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.16)
```


### mod4.2.16.1: Quanti_PAS = Monitoramento Geral (sem controles)

```{r}
mod4.2.16.1 <- plm(Quanti_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.16.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.16.1$residuals)
boxplot(mod4.2.16.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.16.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.16.1)
```


### mod4.2.17: Quali_PAS = Monitoramento Geral (com controles) 

```{r}
mod4.2.17 <- plm(Quali_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.17,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.17$residuals)
boxplot(mod4.2.17$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.17)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.17)
```


### mod4.2.17.1: Quali_PAS = Monitoramento Geral (sem controles)

```{r}
mod4.2.17.1 <- plm(Quali_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.17.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.17.1$residuals)
boxplot(mod4.2.17.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.17.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.17.1)
```


### mod4.2.18: Contábil_PAS = Monitoramento Geral (com controles)

```{r}
mod4.2.18 <- plm(Contábil_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.18,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.18$residuals)
boxplot(mod4.2.18$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.18)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.18)
```


### mod4.2.18.1: Contábil_PAS = Monitoramento Geral (sem controles)

```{r}
mod4.2.18.1 <- plm(Contábil_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.18.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.18.1$residuals)
boxplot(mod4.2.18.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.18.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.18.1)
```


### mod4.2.19: Financeiro_PAS = Monitoramento Geral (com controles)

```{r}
mod4.2.19 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.19,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.19$residuals)
boxplot(mod4.2.19$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.19)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.19)
```


### mod4.2.19.1: Financeiro_PAS = Monitoramento Geral (sem controles)

```{r}
mod4.2.19.1 <- plm(Financeiro_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.19.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.19.1$residuals)
boxplot(mod4.2.19.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.19.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.19.1)
```


### mod4.2.20: Outros_PAS = Monitoramento Geral (com controles)

```{r}
mod4.2.20 <- plm(Outros_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.20,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.20$residuals)
boxplot(mod4.2.20$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.20)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.20)
```


### mod4.2.20.1: Outros_PAS = Monitoramento Geral (sem controles)

```{r}
mod4.2.20.1 <- plm(Outros_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.20.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.20.1$residuals)
boxplot(mod4.2.20.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.20.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.20.1)
```

### mod4.2.21: Culpado_PAS = Monitoramento Geral (com controles)

```{r}
mod4.2.21 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.21,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.21$residuals)
boxplot(mod4.2.21$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.21)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.21)
```

### mod4.2.21.1: Culpado_PAS = Monitoramento Geral (sem controles)

```{r}
mod4.2.21.1 <- plm(Culpado_PAS ~ factor(MONIT_TRIB_GERAL)*factor(Lei13506t),
                 data = dados_logit,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod4.2.21.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod4.2.21.1$residuals)
boxplot(mod4.2.21.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod4.2.21.1)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod4.2.21.1)
```



# Análises de Robustez


## Base para dados_agre



```{r}
# Vetor com os nomes das colunas que você deseja selecionar
dados_agreETR <- dados_logit %>%
  dplyr::select("TICKER", "ANO", "PAS", "Culpado_PAS", "Quanti_PAS", "Quali_PAS", "Contabil_PAS", "Financeiro_PAS", "Outros_PAS", 
  "Reapresentacao", "Qtd_Reapr", "RE", "RC", "Quali_Reapr", "Quanti_Reapr", "Contábil_Reapr", 
  "Financeiro_Reapr", "Outros_Reapr", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", 
  "MONIT_TRIB_GERAL", "Lei13506t", "ENDIV_w1", "RTT", 
  "TAM_w1", "diffVENDAS_w1", "LCS", 
  "IDADE_w1", "MTB_w1", "ROA_w1", "COVID", 
  "SEG", "SETOR", "ADM_IND_w1", "FIS_EXT", 
  "ADM_DIR_w1", "ADM_EXT_w1", "MAIOR_IND_ADM", "CAIXA_w1", 
  "INTANGIVEL_w1", "PREJUIZO", "DA_KLW_w1", "PL_NEG", "ACIO1_TOTAL", "AUD", "QCF_Reapr", "QCF_PAS", "ETR_w1", "MAIOR_ETR") %>%
  na.omit()
```


```{r}
# Vetor com os nomes das colunas que você deseja selecionar
dados_agreCETR <- dados_logit %>%
  dplyr::select("TICKER", "ANO", "PAS", "Culpado_PAS", "Quanti_PAS", "Quali_PAS", "Contabil_PAS", "Financeiro_PAS", "Outros_PAS", 
  "Reapresentacao", "Qtd_Reapr", "RE", "RC", "Quali_Reapr", "Quanti_Reapr", "Contábil_Reapr", 
  "Financeiro_Reapr", "Outros_Reapr", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", 
  "MONIT_TRIB_GERAL", "Lei13506t", "ENDIV_w1", "RTT", 
  "TAM_w1", "diffVENDAS_w1", "LCS", 
  "IDADE_w1", "MTB_w1", "ROA_w1", "COVID", 
  "SEG", "SETOR", "ADM_IND_w1", "FIS_EXT", 
  "ADM_DIR_w1", "ADM_EXT_w1", "MAIOR_IND_ADM", "CAIXA_w1", 
  "INTANGIVEL_w1", "PREJUIZO", "DA_KLW_w1", "PL_NEG", "ACIO1_TOTAL", "AUD", "QCF_Reapr", "QCF_PAS", "CETR_w1", "MAIOR_CETR") %>%
  na.omit()
```


```{r}
dados_agreETRLONG <- dados_logit %>%
  dplyr::select("TICKER", "ANO", "PAS", "Culpado_PAS", "Quanti_PAS", "Quali_PAS", "Contabil_PAS", "Financeiro_PAS", "Outros_PAS", 
  "Reapresentacao", "Qtd_Reapr", "RE", "RC", "Quali_Reapr", "Quanti_Reapr", "Contábil_Reapr", 
  "Financeiro_Reapr", "Outros_Reapr", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", 
  "MONIT_TRIB_GERAL", "Lei13506t", "ENDIV_w1", "RTT", 
  "TAM_w1", "diffVENDAS_w1", "LCS", 
  "IDADE_w1", "MTB_w1", "ROA_w1", "COVID", 
  "SEG", "SETOR", "ADM_IND_w1", "FIS_EXT", 
  "ADM_DIR_w1", "ADM_EXT_w1", "MAIOR_IND_ADM", "CAIXA_w1", 
  "INTANGIVEL_w1", "PREJUIZO", "DA_KLW_w1", "PL_NEG", "ACIO1_TOTAL", "AUD", "QCF_Reapr", "QCF_PAS", "ETR_LONG_w1", "MAIOR_ETR_LONG") %>%
  na.omit()
```


```{r}
dados_agreCTRIB <- dados_logit %>%
  dplyr::select("TICKER", "ANO", "PAS", "Culpado_PAS", "Quanti_PAS", "Quali_PAS", "Contabil_PAS", "Financeiro_PAS", "Outros_PAS", 
  "Reapresentacao", "Qtd_Reapr", "RE", "RC", "Quali_Reapr", "Quanti_Reapr", "Contábil_Reapr", 
  "Financeiro_Reapr", "Outros_Reapr", "MONIT_TRIB_DIF", "MONIT_TRIB_ESP", 
  "MONIT_TRIB_GERAL", "Lei13506t", "ENDIV_w1", "RTT", 
  "TAM_w1", "diffVENDAS_w1", "LCS", 
  "IDADE_w1", "MTB_w1", "ROA_w1", "COVID", 
  "SEG", "SETOR", "ADM_IND_w1", "FIS_EXT", 
  "ADM_DIR_w1", "ADM_EXT_w1", "MAIOR_IND_ADM", "CAIXA_w1", 
  "INTANGIVEL_w1", "PREJUIZO", "DA_KLW_w1", "PL_NEG", "ACIO1_TOTAL", "AUD", "QCF_Reapr", "QCF_PAS", "CTRIB_w1", "MAIOR_CTRIB") %>%
  na.omit()
```



## Legendas Equacoes

Obs: os modelos de 5 a 8 são referente as equações da construção das variáveis de agressividade: ETR, CETR, ETRLONG e CTRIB, que já foram construídas na seção desse script em "Indenpendentes de Controle", linha 1178.

### Agressividade = Monitoramento Tributário + Controles

mod9.1.1: ETR = Monitoramento Diferenciado (com controles)
mod9.1.2: CETR = Monitoramento Diferenciado (com controles)
mod9.1.3: ETRLONG = Monitoramento Diferenciado (com controles)
mod9.1.4: CTRIB = Monitoramento Diferenciado (com controles)

mod9.1.5: ETR = Monitoramento Especial (com controles)
mod9.1.6: CETR = Monitoramento Especial (com controles)
mod9.1.7: ETRLONG = Monitoramento Especial (com controles)
mod9.1.8: CTRIB = Monitoramento Especial (com controles)

### Maior Agressividade = Monitoramento Tributário + Controles

mod10.1.1: MAIORETR = Monitoramento Diferenciado (com controles)
mod10.1.2: MAIORCETR = Monitoramento Diferenciado (com controles)
mod10.1.3: MAIORETRLONG = Monitoramento Diferenciado (com controles)
mod10.1.4: MAIORCTRIB = Monitoramento Diferenciado (com controles)

mod10.1.5: MAIORETR = Monitoramento Especial (com controles)
mod10.1.6: MAIORCETR = Monitoramento Especial (com controles)
mod10.1.7: MAIORETRLONG = Monitoramento Especial (com controles)
mod10.1.8: MAIORCTRIB = Monitoramento Especial (com controles)


### Irregularidades = Agressividade + Controles

mod11.1.1: Reapresentacao = ETR (com controles)
mod11.1.2: Reapresentacao = CETR (com controles)
mod11.1.3: Reapresentacao = ETRLONGLONG (com controles)
mod11.1.4: Reapresentacao = CTRIB (com controles)

mod11.2.1: PAS = ETR (com controles)
mod11.2.2: PAS = CETR (com controles)
mod11.2.3: PAS = ETRLONG(com controles)
mod11.2.4: PAS = CTRIB (com controles)

mod12.1.1: Reapresentacao = MAIORETR (com controles)
mod12.1.2: Reapresentacao = MAIORCETR (com controles)
mod12.1.3: Reapresentacao = MAIORETRLONGLONG (com controles)
mod12.1.4: Reapresentacao = MAIORCTRIB (com controles)

mod12.2.1: PAS = MAIORETR (com controles)
mod12.2.2: PAS = MAIORCETR (com controles)
mod12.2.3: PAS = MAIORETRLONG(com controles)
mod12.2.4: PAS = MAIORCTRIB (com controles)


### Irregularidades = MONITTRIB * AGRE * LEI13506 + Controles

mod13.1.1: Reapresentacao = Monit Dif * ETR * Lei13506 (com controles)
mod13.1.2: Reapresentacao = Monit Dif * CETR * Lei13506 (com controles)
mod13.1.3: Reapresentacao = Monit Dif * ETRLONG * Lei13506 (com controles)
mod13.1.4: Reapresentacao = Monit Dif * CTRIB * Lei13506 (com controles)

mod13.1.5: Reapresentacao = Monit Esp * ETR * Lei13506 (com controles)
mod13.1.6: Reapresentacao = Monit Esp * CETR * Lei13506 (com controles)
mod13.1.7: Reapresentacao = Monit Esp * ETRLONG * Lei13506 (com controles)
mod13.1.8: Reapresentacao = Monit Esp * CTRIB * Lei13506 (com controles)

mod13.2.1: PAS = Monit Dif * ETR * Lei13506 (com controles)
mod13.2.2: PAS = Monit Dif * CETR * Lei13506 (com controles)
mod13.2.3: PAS = Monit Dif * ETRLONG * Lei13506 (com controles)
mod13.2.4: PAS = Monit Dif * CTRIB * Lei13506 (com controles)

mod13.2.5: PAS = Monit Esp * ETR * Lei13506 (com controles)
mod13.2.6: PAS = Monit Esp * CETR * Lei13506 (com controles)
mod13.2.7: PAS = Monit Esp * ETRLONG * Lei13506 (com controles)
mod13.2.8: PAS = Monit Esp * CTRIB * Lei13506 (com controles)

mod14.1.1: Reapresentacao = Monit Dif * MAIORETR * Lei13506 (com controles)
mod14.1.2: Reapresentacao = Monit Dif * MAIORCETR * Lei13506 (com controles)
mod14.1.3: Reapresentacao = Monit Dif * MAIORETRLONG * Lei13506 (com controles)
mod14.1.4: Reapresentacao = Monit Dif * MAIORCTRIB * Lei13506 (com controles)

mod14.1.5: Reapresentacao = Monit Esp * MAIORETR * Lei13506 (com controles)
mod14.1.6: Reapresentacao = Monit Esp * MAIORCETR * Lei13506 (com controles)
mod14.1.7: Reapresentacao = Monit Esp * MAIORETRLONG * Lei13506 (com controles)
mod14.1.8: Reapresentacao = Monit Esp * MAIORCTRIB * Lei13506 (com controles)

mod14.2.1: PAS = Monit Dif * MAIORETR * Lei13506 (com controles)
mod14.2.2: PAS = Monit Dif * MAIORCETR * Lei13506 (com controles)
mod14.2.3: PAS = Monit Dif * MAIORETRLONG * Lei13506 (com controles)
mod14.2.4: PAS = Monit Dif * MAIORCTRIB * Lei13506 (com controles)

mod14.2.5: PAS = Monit Esp * MAIORETR * Lei13506 (com controles)
mod14.2.6: PAS = Monit Esp * MAIORCETR * Lei13506 (com controles)
mod14.2.7: PAS = Monit Esp * MAIORETRLONG * Lei13506 (com controles)
mod14.2.8: PAS = Monit Esp * MAIORCTRIB * Lei13506 (com controles)


## Agressividade Tributária

### Monitoramento Diferenciado

Diff-in-diff escalonado (OLS e Efeito Fixo)

#### mod9.1.1: ETR = Monitoramento Diferenciado (com controles)

ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG)

```{r}
mod9.1.1.pool <- plm(ETR_w1 ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod9.1.1.pool,robust=TRUE)
```

```{r}
mod9.1.1 <- plm(ETR_w1 ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod9.1.1,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod9.1.1$residuals)
boxplot(mod9.1.1$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod9.1.1)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod9.1.1.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod9.1.1)
```

#### mod9.1.2: CETR = Monitoramento Diferenciado (com controles)

```{r}
mod9.1.2.pool <- plm(CETR_w1 ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod9.1.2.pool,robust=TRUE)
```

```{r}
mod9.1.2 <- plm(CETR_w1 ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod9.1.2,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod9.1.2$residuals)
boxplot(mod9.1.2$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod9.1.2)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod9.1.2.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod9.1.2)
```

#### mod9.1.3: ETRLONG = Monitoramento Diferenciado (com controles)

```{r}
mod9.1.3.pool <- plm(ETR_LONG_w1 ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod9.1.3.pool,robust=TRUE)
```

```{r}
mod9.1.3 <- plm(ETR_LONG_w1 ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod9.1.3,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod9.1.3$residuals)
boxplot(mod9.1.3$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod9.1.3)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod9.1.3.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod9.1.3)
```


#### mod9.1.4: CTRIB = Monitoramento Diferenciado (com controles)

```{r}
mod9.1.4.pool <- plm(CTRIB_w1 ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod9.1.4.pool,robust=TRUE)
```

```{r}
mod9.1.4 <- plm(CTRIB_w1 ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod9.1.4,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod9.1.4$residuals)
boxplot(mod9.1.4$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod9.1.4)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod9.1.4.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod9.1.4)
```



### Monitoramento Especial

Diff-in-diff escalonado (OLS e Efeito Fixo)

#### mod9.1.5: ETR = Monitoramento Especial (com controles)

```{r}
mod9.1.5.pool <- plm(ETR_w1 ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod9.1.5.pool,robust=TRUE)
```

```{r}
mod9.1.5 <- plm(ETR_w1 ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod9.1.5,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod9.1.5$residuals)
boxplot(mod9.1.5$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod9.1.5)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod9.1.5.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod9.1.5)
```


#### mod9.1.6: CETR = Monitoramento Especial (com controles)

```{r}
mod9.1.6.pool <- plm(CETR_w1 ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod9.1.6.pool,robust=TRUE)
```

```{r}
mod9.1.6 <- plm(CETR_w1 ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod9.1.6,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod9.1.6$residuals)
boxplot(mod9.1.6$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod9.1.6)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod9.1.6.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod9.1.6)
```



#### mod9.1.7: ETRLONG = Monitoramento Especial (com controles)

```{r}
mod9.1.7.pool <- plm(ETR_LONG_w1 ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod9.1.7.pool,robust=TRUE)
```

```{r}
mod9.1.7 <- plm(ETR_LONG_w1 ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod9.1.7,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod9.1.7$residuals)
boxplot(mod9.1.7$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod9.1.7)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod9.1.7.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod9.1.7)
```



#### mod9.1.8: CTRIB = Monitoramento Especial (com controles)

```{r}
mod9.1.8.pool <- plm(CTRIB_w1 ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod9.1.8.pool,robust=TRUE)
```

```{r}
mod9.1.8 <- plm(CTRIB_w1 ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod9.1.8,robust=TRUE)
```

#### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod9.1.8$residuals)
boxplot(mod9.1.8$residuals)
```

#### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod9.1.8)
```


#### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod9.1.8.pool)
```


#### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod9.1.8)
```

## Maior Agressividade Tributária

mod10.1.1: MAIORETR = Monitoramento Diferenciado (com controles)
mod10.1.2: MAIORCETR = Monitoramento Diferenciado (com controles)
mod10.1.3: MAIORETRLONG = Monitoramento Diferenciado (com controles)
mod10.1.4: MAIORCTRIB = Monitoramento Diferenciado (com controles)

mod10.1.5: MAIORETR = Monitoramento Especial (com controles)
mod10.1.6: MAIORCETR = Monitoramento Especial (com controles)
mod10.1.7: MAIORETRLONG = Monitoramento Especial (com controles)
mod10.1.8: MAIORCTRIB = Monitoramento Especial (com controles)

#### mod10.1.1: MAIORETR = Monitoramento Diferenciado (com controles)


```{r}
mod10.1.1.final <- pglm(factor(MAIOR_ETR) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod10.1.1 <- glm(factor(MAIOR_ETR) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETR)

dados_agreETR$probMAIORETR <- mod10.1.1$fitted.values

summary(mod10.1.1)

summary(mod10.1.1.final)

export_summs(mod10.1.1,mod10.1.1.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(MAIOR_ETR) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod10.1.1.final), confint(mod10.1.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_MAIORETR=plot.roc(dados_agreETR$MAIOR_ETR,fitted(mod10.1.1))
```

```{r}
plot(roc_MAIORETR,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Especificidade e Sensitividade

```{r}
dados_agreETR$pdata <- as.factor(ifelse(predict(mod10.1.1, newdata = dados_agreETR, type = "response")>0.518,"1","0"))

confusionMatrix(dados_agreETR$pdata, factor(dados_agreETR$MAIOR_ETR), positive="1")
```



#### mod10.1.2: MAIORCETR = Monitoramento Diferenciado (com controles)


```{r}
mod10.1.2.final <- pglm(factor(MAIOR_CETR) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod10.1.2 <- glm(factor(MAIOR_CETR) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCETR)

dados_agreCETR$probMAIORCETR <- mod10.1.2$fitted.values

summary(mod10.1.2)

summary(mod10.1.2.final)

export_summs(mod10.1.2,mod10.1.2.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(MAIOR_CETR) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod10.1.2.final), confint(mod10.1.2.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_MAIORCETR=plot.roc(dados_agreCETR$MAIOR_CETR,fitted(mod10.1.2))
```

```{r}
plot(roc_MAIORCETR,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCETR$pdata <- as.factor(ifelse(predict(mod10.1.2, newdata = dados_agreCETR, type = "response")>0.517,"1","0"))

confusionMatrix(dados_agreCETR$pdata, factor(dados_agreCETR$MAIOR_CETR), positive="1")
```



#### mod10.1.3: MAIORETRLONG = Monitoramento Diferenciado (com controles)


```{r}
mod10.1.3.final <- pglm(factor(MAIOR_ETR_LONG) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETRLONG, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod10.1.3 <- glm(factor(MAIOR_ETR_LONG) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETRLONG)

dados_agreETRLONG$probReapr <- mod10.1.3$fitted.values

summary(mod10.1.3)

summary(mod10.1.3.final)

export_summs(mod10.1.3,mod10.1.3.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(MAIOR_ETR_LONG) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETRLONG)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod10.1.3.final), confint(mod10.1.3.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_MAIORETRLONG=plot.roc(dados_agreETRLONG$MAIOR_ETR_LONG,fitted(mod10.1.3))
```

```{r}
plot(roc_MAIORETRLONG,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETRLONG$pdata <- as.factor(ifelse(predict(mod10.1.3, newdata = dados_agreETRLONG, type = "response")>0.525,"1","0"))

confusionMatrix(dados_agreETRLONG$pdata, factor(dados_agreETRLONG$MAIOR_ETR_LONG), positive="1")
```


#### mod10.1.4: MAIORCTRIB = Monitoramento Diferenciado (com controles)


```{r}
mod10.1.4.final <- pglm(factor(MAIOR_CTRIB) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCTRIB, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod10.1.4 <- glm(factor(MAIOR_CTRIB) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCTRIB)

dados_agreCTRIB$probMAIORCTRIB <- mod10.1.4$fitted.values

summary(mod10.1.4)

summary(mod10.1.4.final)

export_summs(mod10.1.4,mod10.1.4.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(MAIOR_CTRIB) ~ factor(MONIT_TRIB_DIF) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCTRIB)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod10.1.4.final), confint(mod10.1.4.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_MAIORCTRIB=plot.roc(dados_agreCTRIB$MAIOR_CTRIB,fitted(mod10.1.4))
```

```{r}
plot(roc_MAIORCTRIB,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCTRIB$pdata <- as.factor(ifelse(predict(mod10.1.4, newdata = dados_agreCTRIB, type = "response")>0.393,"1","0"))

confusionMatrix(dados_agreCTRIB$pdata, factor(dados_agreCTRIB$MAIOR_CTRIB), positive="1")
```


#### mod10.1.5: MAIORETR = Monitoramento Especial (com controles)


```{r}
mod10.1.5.final <- pglm(factor(MAIOR_ETR) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod10.1.5 <- glm(factor(MAIOR_ETR) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETR)

dados_agreETR$probMAIORETR <- mod10.1.5$fitted.values

summary(mod10.1.5)

summary(mod10.1.5.final)

export_summs(mod10.1.5,mod10.1.5.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(MAIOR_ETR) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod10.1.5.final), confint(mod10.1.5.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_MAIORETR=plot.roc(dados_agreETR$MAIOR_ETR,fitted(mod10.1.5))
```

```{r}
plot(roc_MAIORETR,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETR$pdata <- as.factor(ifelse(predict(mod10.1.5, newdata = dados_agreETR, type = "response")>0.520,"1","0"))

confusionMatrix(dados_agreETR$pdata, factor(dados_agreETR$MAIOR_ETR), positive="1")
```


#### mod10.1.6: MAIORCETR = Monitoramento Especial (com controles)


```{r}
mod10.1.6.final <- pglm(factor(MAIOR_CETR) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod10.1.6 <- glm(factor(MAIOR_CETR) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCETR)

dados_agreCETR$probMAIORCETR <- mod10.1.6$fitted.values

summary(mod10.1.6)

summary(mod10.1.6.final)

export_summs(mod10.1.6,mod10.1.6.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(MAIOR_CETR) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod10.1.6.final), confint(mod10.1.6.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_MAIORCETR=plot.roc(dados_agreCETR$MAIOR_CETR,fitted(mod10.1.6))
```

```{r}
plot(roc_MAIORCETR,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCETR$pdata <- as.factor(ifelse(predict(mod10.1.6, newdata = dados_agreCETR, type = "response")>0.430,"1","0"))

confusionMatrix(dados_agreCETR$pdata, factor(dados_agreCETR$MAIOR_CETR), positive="1")
```


#### mod10.1.7: MAIORETRLONG = Monitoramento Especial (com controles)


```{r}
mod10.1.7.final <- pglm(factor(MAIOR_ETR_LONG) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETRLONG, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod10.1.7 <- glm(factor(MAIOR_ETR_LONG) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETRLONG)

dados_agreETRLONG$probMAIORETRLONG <- mod10.1.7$fitted.values

summary(mod10.1.7)

summary(mod10.1.7.final)

export_summs(mod10.1.7,mod10.1.7.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(MAIOR_ETR_LONG) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETRLONG)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod10.1.7.final), confint(mod10.1.7.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_MAIORETRLONG=plot.roc(dados_agreETRLONG$MAIOR_ETR_LONG,fitted(mod10.1.7))
```

```{r}
plot(roc_MAIORETRLONG,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETRLONG$pdata <- as.factor(ifelse(predict(mod10.1.7, newdata = dados_agreETRLONG, type = "response")>0.548,"1","0"))

confusionMatrix(dados_agreETRLONG$pdata, factor(dados_agreETRLONG$MAIOR_ETR_LONG), positive="1")
```


#### mod10.1.8: MAIORCTRIB = Monitoramento Especial (com controles)


```{r}
mod10.1.8.final <- pglm(factor(MAIOR_CTRIB) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCTRIB, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod10.1.8 <- glm(factor(MAIOR_CTRIB) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCTRIB)

dados_agreCTRIB$probMAIORCTRIB <- mod10.1.8$fitted.values

summary(mod10.1.8)

summary(mod10.1.8.final)

export_summs(mod10.1.8,mod10.1.8.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(MAIOR_CTRIB) ~ factor(MONIT_TRIB_ESP) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCTRIB)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod10.1.8.final), confint(mod10.1.8.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_MAIORCTRIB=plot.roc(dados_agreCTRIB$MAIOR_CTRIB,fitted(mod10.1.8))
```

```{r}
plot(roc_MAIORCTRIB,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCTRIB$pdata <- as.factor(ifelse(predict(mod10.1.8, newdata = dados_agreCTRIB, type = "response")>0.363,"1","0"))

confusionMatrix(dados_agreCTRIB$pdata, factor(dados_agreCTRIB$MAIOR_CTRIB), positive="1")
```




## Logit

### Legendas

#### Irregularidades = Agressividade + Controles

mod11.1.1: Reapresentacao = ETR (com controles)
mod11.1.2: Reapresentacao = CETR (com controles)
mod11.1.3: Reapresentacao = ETRLONGLONG (com controles)
mod11.1.4: Reapresentacao = CTRIB (com controles)

mod11.2.1: PAS = ETR (com controles)
mod11.2.2: PAS = CETR (com controles)
mod11.2.3: PAS = ETRLONG(com controles)
mod11.2.4: PAS = CTRIB (com controles)

mod12.1.1: Reapresentacao = MAIORETR (com controles)
mod12.1.2: Reapresentacao = MAIORCETR (com controles)
mod12.1.3: Reapresentacao = MAIORETRLONGLONG (com controles)
mod12.1.4: Reapresentacao = MAIORCTRIB (com controles)

mod12.2.1: PAS = MAIORETR (com controles)
mod12.2.2: PAS = MAIORCETR (com controles)
mod12.2.3: PAS = MAIORETRLONG(com controles)
mod12.2.4: PAS = MAIORCTRIB (com controles)

#### mod11.1.1: Reapresentacao = ETR (com controles)

Pooling

```{r}
mod11.1.1.final <- pglm(factor(Reapresentacao) ~ ETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod11.1.1 <- glm(factor(Reapresentacao) ~ ETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETR)

dados_agreETR$probReapr <- mod11.1.1$fitted.values

summary(mod11.1.1)

summary(mod11.1.1.final)

export_summs(mod11.1.1,mod11.1.1.final)

```


##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ ETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod11.1.1.final), confint(mod11.1.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao=plot.roc(dados_agreETR$Reapresentacao,fitted(mod11.1.1))
```

```{r}
plot(roc_Reapresentacao,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETR$pdata <- as.factor(ifelse(predict(mod11.1.1, newdata = dados_agreETR, type = "response")>0.234,"1","0"))

confusionMatrix(dados_agreETR$pdata, factor(dados_agreETR$Reapresentacao), positive="1")
```


#### mod11.1.2: Reapresentacao = CETR (com controles)

Pooling

```{r}
mod11.1.2.final <- pglm(factor(Reapresentacao) ~ CETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod11.1.2 <- glm(factor(Reapresentacao) ~ CETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCETR)

dados_agreCETR$probReapr <- mod11.1.2$fitted.values

summary(mod11.1.2)

summary(mod11.1.2.final)

export_summs(mod11.1.2,mod11.1.2.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ CETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod11.1.2.final), confint(mod11.1.2.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao=plot.roc(dados_agreCETR$Reapresentacao,fitted(mod11.1.2))
```

```{r}
plot(roc_Reapresentacao,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCETR$pdata <- as.factor(ifelse(predict(mod11.1.2, newdata = dados_agreCETR, type = "response")>0.223,"1","0"))

confusionMatrix(dados_agreCETR$pdata, factor(dados_agreCETR$Reapresentacao), positive="1")
```


#### mod11.1.3: Reapresentacao = ETRLONGLONG (com controles)

Pooling

```{r}
mod11.1.3.final <- pglm(factor(Reapresentacao) ~ ETR_LONG_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETRLONG, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod11.1.3 <- glm(factor(Reapresentacao) ~ ETR_LONG_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETRLONG)

dados_agreETRLONG$probReapr <- mod11.1.3$fitted.values

summary(mod11.1.3)

summary(mod11.1.3.final)

export_summs(mod11.1.3,mod11.1.3.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ ETR_LONG_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETRLONG)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod11.1.3.final), confint(mod11.1.3.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao=plot.roc(dados_agreETRLONG$Reapresentacao,fitted(mod11.1.3))
```

```{r}
plot(roc_Reapresentacao,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETRLONG$pdata <- as.factor(ifelse(predict(mod11.1.3, newdata = dados_agreETRLONG, type = "response")>0.196,"1","0"))

confusionMatrix(dados_agreETRLONG$pdata, factor(dados_agreETRLONG$Reapresentacao), positive="1")
```


#### mod11.1.4: Reapresentacao = CTRIB (com controles)

Pooling

```{r}
mod11.1.4.final <- pglm(factor(Reapresentacao) ~ CTRIB_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCTRIB, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod11.1.4 <- glm(factor(Reapresentacao) ~ CTRIB_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCTRIB)

dados_agreCTRIB$probReapr <- mod11.1.4$fitted.values

summary(mod11.1.4)

summary(mod11.1.4.final)

export_summs(mod11.1.4,mod11.1.4.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ CTRIB_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCTRIB)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod11.1.4.final), confint(mod11.1.4.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao=plot.roc(dados_agreCTRIB$Reapresentacao,fitted(mod11.1.4))
```

```{r}
plot(roc_Reapresentacao,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCTRIB$pdata <- as.factor(ifelse(predict(mod11.1.4, newdata = dados_agreCTRIB, type = "response")>0.250,"1","0"))

confusionMatrix(dados_agreCTRIB$pdata, factor(dados_agreCTRIB$Reapresentacao), positive="1")
```


#### mod11.2.1: PAS = ETR (com controles)

Pooling

```{r}
mod11.2.1.final <- pglm(factor(PAS) ~ ETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod11.2.1 <- glm(factor(PAS) ~ ETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETR)

dados_agreETR$probPAS <- mod11.2.1$fitted.values

summary(mod11.2.1)

summary(mod11.2.1.final)

export_summs(mod11.2.1,mod11.2.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ ETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod11.2.1.final), confint(mod11.2.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS=plot.roc(dados_agreETR$PAS,fitted(mod11.2.1))
```

```{r}
plot(roc_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETR$pdata <- as.factor(ifelse(predict(mod11.2.1, newdata = dados_agreETR, type = "response")>0.345,"1","0"))

confusionMatrix(dados_agreETR$pdata, factor(dados_agreETR$PAS), positive="1")
```



#### mod11.2.2: PAS = CETR (com controles)

Pooling

```{r}
mod11.2.2.final <- pglm(factor(PAS) ~ CETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod11.2.2 <- glm(factor(PAS) ~ CETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCETR)

dados_agreCETR$probPAS <- mod11.2.2$fitted.values

summary(mod11.2.2)

summary(mod11.2.2.final)

export_summs(mod11.2.2,mod11.2.2.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ CETR_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod11.2.2.final), confint(mod11.2.2.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS=plot.roc(dados_agreCETR$PAS,fitted(mod11.2.2))
```

```{r}
plot(roc_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCETR$pdata <- as.factor(ifelse(predict(mod11.2.2, newdata = dados_agreCETR, type = "response")>0.361,"1","0"))

confusionMatrix(dados_agreCETR$pdata, factor(dados_agreCETR$PAS), positive="1")
```




#### mod11.2.3: PAS = ETRLONG(com controles)

Pooling

```{r}
mod11.2.3.final <- pglm(factor(PAS) ~ ETR_LONG_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETRLONG, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod11.2.3 <- glm(factor(PAS) ~ ETR_LONG_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETRLONG)

dados_agreETRLONG$probPAS <- mod11.2.3$fitted.values

summary(mod11.2.3)

summary(mod11.2.3.final)

export_summs(mod11.2.3,mod11.2.3.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ ETR_LONG_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETRLONG)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod11.2.3.final), confint(mod11.2.3.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS=plot.roc(dados_agreETRLONG$PAS,fitted(mod11.2.3))
```

```{r}
plot(roc_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETRLONG$pdata <- as.factor(ifelse(predict(mod11.2.3, newdata = dados_agreETRLONG, type = "response")>0.340,"1","0"))

confusionMatrix(dados_agreETRLONG$pdata, factor(dados_agreETRLONG$PAS), positive="1")
```


#### mod11.2.4: PAS = CTRIB (com controles)

Pooling

```{r}
mod11.2.4.final <- pglm(factor(PAS) ~ CTRIB_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCTRIB, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod11.2.4 <- glm(factor(PAS) ~ CTRIB_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCTRIB)

dados_agreCTRIB$probPAS <- mod11.2.4$fitted.values

summary(mod11.2.4)

summary(mod11.2.4.final)

export_summs(mod11.2.4,mod11.2.4.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ CTRIB_w1 + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCTRIB)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod11.2.4.final), confint(mod11.2.4.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS=plot.roc(dados_agreCTRIB$PAS,fitted(mod11.2.4))
```

```{r}
plot(roc_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCTRIB$pdata <- as.factor(ifelse(predict(mod11.2.4, newdata = dados_agreCTRIB, type = "response")>0.391,"1","0"))

confusionMatrix(dados_agreCTRIB$pdata, factor(dados_agreCTRIB$PAS), positive="1")
```


#### mod12.1.1: Reapresentacao = MAIOR_ETR (com controles)

Pooling

```{r}
mod12.1.1.final <- pglm(factor(Reapresentacao) ~ factor(MAIOR_ETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod12.1.1 <- glm(factor(Reapresentacao) ~ factor(MAIOR_ETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETR)

dados_agreETR$probReapr <- mod12.1.1$fitted.values

summary(mod12.1.1)

summary(mod12.1.1.final)

export_summs(mod12.1.1,mod12.1.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ factor(MAIOR_ETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod12.1.1.final), confint(mod12.1.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao=plot.roc(dados_agreETR$Reapresentacao,fitted(mod12.1.1))
```

```{r}
plot(roc_Reapresentacao,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETR$pdata <- as.factor(ifelse(predict(mod12.1.1, newdata = dados_agreETR, type = "response")>0.230,"1","0"))

confusionMatrix(dados_agreETR$pdata, factor(dados_agreETR$Reapresentacao), positive="1")
```




#### mod12.1.2: Reapresentacao = MAIORCETR (com controles)

Pooling

```{r}
mod12.1.2.final <- pglm(factor(Reapresentacao) ~ factor(MAIOR_CETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod12.1.2 <- glm(factor(Reapresentacao) ~ factor(MAIOR_CETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCETR)

dados_agreCETR$probReapr <- mod12.1.2$fitted.values

summary(mod12.1.2)

summary(mod12.1.2.final)

export_summs(mod12.1.2,mod12.1.2.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ factor(MAIOR_CETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod12.1.2.final), confint(mod12.1.2.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao=plot.roc(dados_agreCETR$Reapresentacao,fitted(mod12.1.2))
```

```{r}
plot(roc_Reapresentacao,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCETR$pdata <- as.factor(ifelse(predict(mod12.1.2, newdata = dados_agreCETR, type = "response")>0.218,"1","0"))

confusionMatrix(dados_agreCETR$pdata, factor(dados_agreCETR$Reapresentacao), positive="1")
```




#### mod12.1.3: Reapresentacao = MAIORETRLONG (com controles)

Pooling

```{r}
mod12.1.3.final <- pglm(factor(Reapresentacao) ~ factor(MAIOR_ETR_LONG) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETRLONG, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod12.1.3 <- glm(factor(Reapresentacao) ~ factor(MAIOR_ETR_LONG) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETRLONG)

dados_agreETRLONG$probReapr <- mod12.1.3$fitted.values

summary(mod12.1.3)

summary(mod12.1.3.final)

export_summs(mod12.1.3,mod12.1.3.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ factor(MAIOR_ETR_LONG) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETRLONG)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod12.1.3.final), confint(mod12.1.3.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao=plot.roc(dados_agreETRLONG$Reapresentacao,fitted(mod12.1.3))
```

```{r}
plot(roc_Reapresentacao,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETRLONG$pdata <- as.factor(ifelse(predict(mod12.1.3, newdata = dados_agreETRLONG, type = "response")>0.225,"1","0"))

confusionMatrix(dados_agreETRLONG$pdata, factor(dados_agreETRLONG$Reapresentacao), positive="1")
```


#### mod12.1.4: Reapresentacao = MAIOR_CTRIB (com controles)

Pooling

```{r}
mod12.1.4.final <- pglm(factor(Reapresentacao) ~ factor(MAIOR_CTRIB) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCTRIB, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod12.1.4 <- glm(factor(Reapresentacao) ~ factor(MAIOR_CTRIB) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCTRIB)

dados_agreCTRIB$probReapr <- mod12.1.4$fitted.values

summary(mod12.1.4)

summary(mod12.1.4.final)

export_summs(mod12.1.4,mod12.1.4.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(Reapresentacao) ~ factor(MAIOR_CTRIB) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCTRIB)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod12.1.4.final), confint(mod12.1.4.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_Reapresentacao=plot.roc(dados_agreCTRIB$Reapresentacao,fitted(mod12.1.4))
```

```{r}
plot(roc_Reapresentacao,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCTRIB$pdata <- as.factor(ifelse(predict(mod12.1.4, newdata = dados_agreCTRIB, type = "response")>0.253,"1","0"))

confusionMatrix(dados_agreCTRIB$pdata, factor(dados_agreCTRIB$Reapresentacao), positive="1")
```


#### mod12.2.1: PAS = MAIOR_ETR (com controles)

Pooling

```{r}
mod12.2.1.final <- pglm(factor(PAS) ~ factor(MAIOR_ETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod12.2.1 <- glm(factor(PAS) ~ factor(MAIOR_ETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETR)

dados_agreETR$probPAS <- mod12.2.1$fitted.values

summary(mod12.2.1)

summary(mod12.2.1.final)

export_summs(mod12.2.1,mod12.2.1.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ factor(MAIOR_ETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod12.2.1.final), confint(mod12.2.1.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS=plot.roc(dados_agreETR$PAS,fitted(mod12.2.1))
```

```{r}
plot(roc_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETR$pdata <- as.factor(ifelse(predict(mod12.2.1, newdata = dados_agreETR, type = "response")>0.357,"1","0"))

confusionMatrix(dados_agreETR$pdata, factor(dados_agreETR$PAS), positive="1")
```


#### mod12.2.2: PAS = MAIOR_CETR (com controles)

Pooling

```{r}
mod12.2.2.final <- pglm(factor(PAS) ~ factor(MAIOR_CETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCETR, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod12.2.2 <- glm(factor(PAS) ~ factor(MAIOR_CETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCETR)

dados_agreCETR$probPAS <- mod12.2.2$fitted.values

summary(mod12.2.2)

summary(mod12.2.2.final)

export_summs(mod12.2.2,mod12.2.2.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ factor(MAIOR_CETR) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCETR)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod12.2.2.final), confint(mod12.2.2.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS=plot.roc(dados_agreCETR$PAS,fitted(mod12.2.2))
```

```{r}
plot(roc_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCETR$pdata <- as.factor(ifelse(predict(mod12.2.2, newdata = dados_agreCETR, type = "response")>0.386,"1","0"))

confusionMatrix(dados_agreCETR$pdata, factor(dados_agreCETR$PAS), positive="1")
```


#### mod12.2.3: PAS = MAIOR_ETR_LONG(com controles)

Pooling

```{r}
mod12.2.3.final <- pglm(factor(PAS) ~ factor(MAIOR_ETR_LONG) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreETRLONG, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod12.2.3 <- glm(factor(PAS) ~ factor(MAIOR_ETR_LONG) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreETRLONG)

dados_agreETRLONG$probPAS <- mod12.2.3$fitted.values

summary(mod12.2.3)

summary(mod12.2.3.final)

export_summs(mod12.2.3,mod12.2.3.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ factor(MAIOR_ETR_LONG) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreETRLONG)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod12.2.3.final), confint(mod12.2.3.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS=plot.roc(dados_agreETRLONG$PAS,fitted(mod12.2.3))
```

```{r}
plot(roc_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreETRLONG$pdata <- as.factor(ifelse(predict(mod12.2.3, newdata = dados_agreETRLONG, type = "response")>0.344,"1","0"))

confusionMatrix(dados_agreETRLONG$pdata, factor(dados_agreETRLONG$PAS), positive="1")
```


#### mod12.2.4: PAS = MAIOR_CTRIB (com controles)

Pooling

```{r}
mod12.2.4.final <- pglm(factor(PAS) ~ factor(MAIOR_CTRIB) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                   family = binomial('logit'),
                   model = "pooling", data = dados_agreCTRIB, 
                   index = c("TICKER", "ANO"),
                   start=NULL,  method = "bfgs", print.level = 3, R = 5)

mod12.2.4 <- glm(factor(PAS) ~ factor(MAIOR_CTRIB) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
              family = binomial('logit'), 
              data = dados_agreCTRIB)

dados_agreCTRIB$probPAS <- mod12.2.4$fitted.values

summary(mod12.2.4)

summary(mod12.2.4.final)

export_summs(mod12.2.4,mod12.2.4.final)

```

##### Estimando a Razão de Chances

Exemplo: para cada variação unitária (aumento) em ETR_log_w1, diminui em 0,81% ((1,941-1)*100) as chances da ocorrência de a empresa ter uma pontuação ESG.


```{r}
logitor(factor(PAS) ~ factor(MAIOR_CTRIB) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG), 
        data = dados_agreCTRIB)
```

##### Determinando o Intervalo de Confiança

*A determinação do intervalo de confiança do modelo proposto é relevante para que seja analizada a estimativa do intervalo de predição do coeficiente da variável independente, a um nível de confiança de 95%. Desta forma, em 95% dos casos, o parâmetro dos coeficientes estará dentro deste intervalo.

```{r}
exp(cbind(OR=coef(mod12.2.4.final), confint(mod12.2.4.final)))
```

##### Curva ROC

```{r}
require(pROC)

roc_PAS=plot.roc(dados_agreCTRIB$PAS,fitted(mod12.2.4))
```

```{r}
plot(roc_PAS,
     print.auc=TRUE, 
     auc.polygon=TRUE, 
     grud=c(0.1,0.2),
     grid.col=c("green","red"), 
     max.auc.polygon=TRUE, 
     auc.polygon.col="lightgreen", 
     print.thres=TRUE)
```

##### Matriz de confusão

Specificidade e Sensitividade

```{r}
dados_agreCTRIB$pdata <- as.factor(ifelse(predict(mod12.2.4, newdata = dados_agreCTRIB, type = "response")>0.408,"1","0"))

confusionMatrix(dados_agreCTRIB$pdata, factor(dados_agreCTRIB$PAS), positive="1")
```


### Interação (Monit Trib * Agre * Lei)

mod13.1.1: Reapresentacao = Monit Dif * ETR * Lei13506 (com controles)
mod13.1.2: Reapresentacao = Monit Dif * CETR * Lei13506 (com controles)
mod13.1.3: Reapresentacao = Monit Dif * ETRLONG * Lei13506 (com controles)
mod13.1.4: Reapresentacao = Monit Dif * CTRIB * Lei13506 (com controles)

mod13.1.5: Reapresentacao = Monit Esp * ETR * Lei13506 (com controles)
mod13.1.6: Reapresentacao = Monit Esp * CETR * Lei13506 (com controles)
mod13.1.7: Reapresentacao = Monit Esp * ETRLONG * Lei13506 (com controles)
mod13.1.8: Reapresentacao = Monit Esp * CTRIB * Lei13506 (com controles)

mod13.2.1: PAS = Monit Dif * ETR * Lei13506 (com controles)
mod13.2.2: PAS = Monit Dif * CETR * Lei13506 (com controles)
mod13.2.3: PAS = Monit Dif * ETRLONG * Lei13506 (com controles)
mod13.2.4: PAS = Monit Dif * CTRIB * Lei13506 (com controles)

mod13.2.5: PAS = Monit Esp * ETR * Lei13506 (com controles)
mod13.2.6: PAS = Monit Esp * CETR * Lei13506 (com controles)
mod13.2.7: PAS = Monit Esp * ETRLONG * Lei13506 (com controles)
mod13.2.8: PAS = Monit Esp * CTRIB * Lei13506 (com controles)

mod14.1.1: Reapresentacao = Monit Dif * MAIORETR * Lei13506 (com controles)
mod14.1.2: Reapresentacao = Monit Dif * MAIORCETR * Lei13506 (com controles)
mod14.1.3: Reapresentacao = Monit Dif * MAIORETRLONG * Lei13506 (com controles)
mod14.1.4: Reapresentacao = Monit Dif * MAIORCTRIB * Lei13506 (com controles)

mod14.1.5: Reapresentacao = Monit Esp * MAIORETR * Lei13506 (com controles)
mod14.1.6: Reapresentacao = Monit Esp * MAIORCETR * Lei13506 (com controles)
mod14.1.7: Reapresentacao = Monit Esp * MAIORETRLONG * Lei13506 (com controles)
mod14.1.8: Reapresentacao = Monit Esp * MAIORCTRIB * Lei13506 (com controles)

mod14.2.1: PAS = Monit Dif * MAIORETR * Lei13506 (com controles)
mod14.2.2: PAS = Monit Dif * MAIORCETR * Lei13506 (com controles)
mod14.2.3: PAS = Monit Dif * MAIORETRLONG * Lei13506 (com controles)
mod14.2.4: PAS = Monit Dif * MAIORCTRIB * Lei13506 (com controles)

mod14.2.5: PAS = Monit Esp * MAIORETR * Lei13506 (com controles)
mod14.2.6: PAS = Monit Esp * MAIORCETR * Lei13506 (com controles)
mod14.2.7: PAS = Monit Esp * MAIORETRLONG * Lei13506 (com controles)
mod14.2.8: PAS = Monit Esp * MAIORCTRIB * Lei13506 (com controles)


#### mod13.1.1: Reapresentacao = Monit Dif * ETR * Lei13506 (com controles)

```{r}
mod13.1.1.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*ETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.1.1.pool,robust=TRUE)
```


```{r}
mod13.1.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*ETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.1.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.1.1$residuals)
boxplot(mod13.1.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.1.1)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.1.1.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.1.1)
```


#### mod13.1.2: Reapresentacao = Monit Dif * CETR * Lei13506 (com controles)

```{r}
mod13.1.2.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*CETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.1.2.pool,robust=TRUE)
```


```{r}
mod13.1.2 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*CETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.1.2,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.1.2$residuals)
boxplot(mod13.1.2$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.1.2)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.1.2.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.1.2)
```


#### mod13.1.3: Reapresentacao = Monit Dif * ETR_LONG * Lei13506 (com controles)

```{r}
mod13.1.3.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*ETR_LONG_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.1.3.pool,robust=TRUE)
```


```{r}
mod13.1.3 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*ETR_LONG_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.1.3,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.1.3$residuals)
boxplot(mod13.1.3$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.1.3)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.1.3.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.1.3)
```




#### mod13.1.4: Reapresentacao = Monit Dif * CTRIB * Lei13506 (com controles)

```{r}
mod13.1.4.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*CTRIB_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.1.4.pool,robust=TRUE)
```


```{r}
mod13.1.4 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*CTRIB_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.1.4,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.1.4$residuals)
boxplot(mod13.1.4$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.1.4)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.1.4.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.1.4)
```


#### mod13.1.5: Reapresentacao = Monit Esp * ETR * Lei13506 (com controles)

```{r}
mod13.1.5.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*ETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.1.5.pool,robust=TRUE)
```


```{r}
mod13.1.5 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*ETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.1.5,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.1.5$residuals)
boxplot(mod13.1.5$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.1.5)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.1.5.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.1.5)
```


#### mod13.1.6: Reapresentacao = Monit Esp * CETR * Lei13506 (com controles)

```{r}
mod13.1.6.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*CETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.1.6.pool,robust=TRUE)
```


```{r}
mod13.1.6 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*CETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.1.6,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.1.6$residuals)
boxplot(mod13.1.6$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.1.6)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.1.6.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.1.6)
```


#### mod13.1.7: Reapresentacao = Monit Esp * ETRLONG * Lei13506 (com controles)

```{r}
mod13.1.7.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*ETR_LONG_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.1.7.pool,robust=TRUE)
```


```{r}
mod13.1.7 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*ETR_LONG_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.1.7,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.1.7$residuals)
boxplot(mod13.1.7$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.1.7)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.1.7.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.1.7)
```

#### mod13.1.8: Reapresentacao = Monit Esp * CTRIB * Lei13506 (com controles)

```{r}
mod13.1.8.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*CTRIB_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.1.8.pool,robust=TRUE)
```


```{r}
mod13.1.8 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*CTRIB_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.1.8,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.1.8$residuals)
boxplot(mod13.1.8$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.1.8)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.1.8.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.1.8)
```


#### mod13.2.1: PAS = Monit Dif * ETR * Lei13506 (com controles)

```{r}
mod13.2.1.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*ETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.2.1.pool,robust=TRUE)
```


```{r}
mod13.2.1 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*ETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.2.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.2.1$residuals)
boxplot(mod13.2.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.2.1)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.2.1.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.2.1)
```



#### mod13.2.2: PAS = Monit Dif * CETR * Lei13506 (com controles)

```{r}
mod13.2.2.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*CETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.2.2.pool,robust=TRUE)
```


```{r}
mod13.2.2 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*CETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.2.2,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.2.2$residuals)
boxplot(mod13.2.2$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.2.2)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.2.2.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.2.2)
```



#### mod13.2.3: PAS = Monit Dif * ETR_LONG * Lei13506 (com controles)

```{r}
mod13.2.3.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*ETR_LONG_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.2.3.pool,robust=TRUE)
```


```{r}
mod13.2.3 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*ETR_LONG_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.2.3,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.2.3$residuals)
boxplot(mod13.2.3$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.2.3)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.2.3.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.2.3)
```


#### mod13.2.4: PAS = Monit Dif * CTRIB * Lei13506 (com controles)

```{r}
mod13.2.4.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*CTRIB_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.2.4.pool,robust=TRUE)
```


```{r}
mod13.2.4 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*CTRIB_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.2.4,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.2.4$residuals)
boxplot(mod13.2.4$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.2.4)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.2.4.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.2.4)
```



#### mod13.2.5: PAS = Monit Esp * ETR * Lei13506 (com controles)

```{r}
mod13.2.5.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*ETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.2.5.pool,robust=TRUE)
```


```{r}
mod13.2.5 <- plm(PAS ~ factor(MONIT_TRIB_ESP)*ETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.2.5,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.2.5$residuals)
boxplot(mod13.2.5$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.2.5)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.2.5.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.2.5)
```


#### mod13.2.6: PAS = Monit Esp * CETR * Lei13506 (com controles)

```{r}
mod13.2.6.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*CETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.2.6.pool,robust=TRUE)
```


```{r}
mod13.2.6 <- plm(PAS ~ factor(MONIT_TRIB_ESP)*CETR_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.2.6,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.2.6$residuals)
boxplot(mod13.2.6$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.2.6)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.2.6.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.2.6)
```

#### mod13.2.7: PAS = Monit Esp * ETR_LONG * Lei13506 (com controles)

```{r}
mod13.2.7.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*ETR_LONG_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.2.7.pool,robust=TRUE)
```


```{r}
mod13.2.7 <- plm(PAS ~ factor(MONIT_TRIB_ESP)*ETR_LONG_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.2.7,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.2.7$residuals)
boxplot(mod13.2.7$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.2.7)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.2.7.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.2.7)
```

#### mod13.2.8: PAS = Monit Esp * CTRIB * Lei13506 (com controles)

```{r}
mod13.2.8.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*CTRIB_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod13.2.8.pool,robust=TRUE)
```


```{r}
mod13.2.8 <- plm(PAS ~ factor(MONIT_TRIB_ESP)*CTRIB_w1*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod13.2.8,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod13.2.8$residuals)
boxplot(mod13.2.8$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod13.2.8)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod13.2.8.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod13.2.8)
```


#### mod14.1.1: Reapresentacao = Monit Dif * MAIOR_ETR * Lei13506 (com controles)

```{r}
mod14.1.1.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_ETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.1.1.pool,robust=TRUE)
```


```{r}
mod14.1.1 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_ETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.1.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.1.1$residuals)
boxplot(mod14.1.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.1.1)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.1.1.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.1.1)
```

#### mod14.1.2: Reapresentacao = Monit Dif * MAIORCETR * Lei13506 (com controles)

```{r}
mod14.1.2.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_CETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.1.2.pool,robust=TRUE)
```


```{r}
mod14.1.2 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_CETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.1.2,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.1.2$residuals)
boxplot(mod14.1.2$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.1.2)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.1.2.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.1.2)
```



#### mod14.1.3: Reapresentacao = Monit Dif * MAIORETRLONG * Lei13506 (com controles)

```{r}
mod14.1.3.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_ETR_LONG)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.1.3.pool,robust=TRUE)
```


```{r}
mod14.1.3 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_ETR_LONG)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.1.3,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.1.3$residuals)
boxplot(mod14.1.3$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.1.3)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.1.3.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.1.3)
```



#### mod14.1.4: Reapresentacao = Monit Dif * MAIOR_CTRIB * Lei13506 (com controles)

```{r}
mod14.1.4.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_CTRIB)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.1.4.pool,robust=TRUE)
```


```{r}
mod14.1.4 <- plm(Reapresentacao ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_CTRIB)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.1.4,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.1.4$residuals)
boxplot(mod14.1.4$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.1.4)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.1.4.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.1.4)
```




#### mod14.1.5: Reapresentacao = Monit Esp * MAIOR_ETR * Lei13506 (com controles)

```{r}
mod14.1.5.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_ETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.1.5.pool,robust=TRUE)
```


```{r}
mod14.1.5 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_ETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.1.5,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.1.5$residuals)
boxplot(mod14.1.5$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.1.5)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.1.5.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.1.5)
```


#### mod14.1.6: Reapresentacao = Monit Esp * MAIOR_CETR * Lei13506 (com controles)

```{r}
mod14.1.6.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_CETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.1.6.pool,robust=TRUE)
```


```{r}
mod14.1.6 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_CETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.1.6,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.1.6$residuals)
boxplot(mod14.1.6$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.1.6)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.1.6.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.1.6)
```


#### mod14.1.7: Reapresentacao = Monit Esp * MAIOR_ETR_LONG * Lei13506 (com controles)

```{r}
mod14.1.7.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_ETR_LONG)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.1.7.pool,robust=TRUE)
```


```{r}
mod14.1.7 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_ETR_LONG)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.1.7,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.1.7$residuals)
boxplot(mod14.1.7$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.1.7)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.1.7.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.1.7)
```



#### mod14.1.8: Reapresentacao = Monit Esp * MAIOR_CTRIB * Lei13506 (com controles)

```{r}
mod14.1.8.pool <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_CTRIB)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.1.8.pool,robust=TRUE)
```


```{r}
mod14.1.8 <- plm(Reapresentacao ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_CTRIB)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.1.8,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.1.8$residuals)
boxplot(mod14.1.8$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.1.8)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.1.8.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.1.8)
```


#### mod14.2.1: PAS = Monit Dif * MAIOR_ETR * Lei13506 (com controles)

```{r}
mod14.2.1.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_ETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.2.1.pool,robust=TRUE)
```


```{r}
mod14.2.1 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_ETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.2.1,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.2.1$residuals)
boxplot(mod14.2.1$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.2.1)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.2.1.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.2.1)
```


#### mod14.2.2: PAS = Monit Dif * MAIOR_CETR * Lei13506 (com controles)

```{r}
mod14.2.2.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_CETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.2.2.pool,robust=TRUE)
```


```{r}
mod14.2.2 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_CETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.2.2,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.2.2$residuals)
boxplot(mod14.2.2$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.2.2)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.2.2.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.2.2)
```


#### mod14.2.3: PAS = Monit Dif * MAIOR_ETR_LONG * Lei13506 (com controles)

```{r}
mod14.2.3.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_ETR_LONG)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.2.3.pool,robust=TRUE)
```


```{r}
mod14.2.3 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_ETR_LONG)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.2.3,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.2.3$residuals)
boxplot(mod14.2.3$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.2.3)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.2.3.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.2.3)
```



#### mod14.2.4: PAS = Monit Dif * MAIOR_CTRIB * Lei13506 (com controles)

```{r}
mod14.2.4.pool <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_CTRIB)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.2.4.pool,robust=TRUE)
```


```{r}
mod14.2.4 <- plm(PAS ~ factor(MONIT_TRIB_DIF)*factor(MAIOR_CTRIB)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.2.4,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.2.4$residuals)
boxplot(mod14.2.4$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.2.4)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.2.4.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.2.4)
```


#### mod14.2.5: PAS = Monit Esp * MAIOR_ETR * Lei13506 (com controles)

```{r}
mod14.2.5.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_ETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.2.5.pool,robust=TRUE)
```


```{r}
mod14.2.5 <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_ETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.2.5,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.2.5$residuals)
boxplot(mod14.2.5$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.2.5)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.2.5.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.2.5)
```


#### mod14.2.6: PAS = Monit Esp * MAIORCETR * Lei13506 (com controles)

```{r}
mod14.2.6.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_CETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.2.6.pool,robust=TRUE)
```


```{r}
mod14.2.6 <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_CETR)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCETR,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.2.6,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.2.6$residuals)
boxplot(mod14.2.6$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.2.6)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.2.6.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.2.6)
```


#### mod14.2.7: PAS = Monit Esp * MAIOR_ETR_LONG * Lei13506 (com controles)

```{r}
mod14.2.7.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_ETR_LONG)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.2.7.pool,robust=TRUE)
```


```{r}
mod14.2.7 <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_ETR_LONG)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreETRLONG,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.2.7,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.2.7$residuals)
boxplot(mod14.2.7$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.2.7)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.2.7.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.2.7)
```


#### mod14.2.8: PAS = Monit Esp * MAIOR_CTRIB * Lei13506 (com controles)

```{r}
mod14.2.8.pool <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_CTRIB)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "pooling")
summary(mod14.2.8.pool,robust=TRUE)
```


```{r}
mod14.2.8 <- plm(PAS ~ factor(MONIT_TRIB_ESP)*factor(MAIOR_CTRIB)*factor(Lei13506t) + ROA_w1 + ENDIV_w1 + TAM_w1 + diffVENDAS_w1 + MTB_w1 + CAIXA_w1 + IDADE_w1 + DA_KLW_w1 + factor(PREJUIZO) + INTANGIVEL_w1 + factor(AUD) + factor(RTT) + factor(LCS) + factor(COVID) + factor(MAIOR_IND_ADM) + factor(ACIO1_TOTAL) + factor(SEG),
                 data = dados_agreCTRIB,
                 index = c ("SETOR","TICKER","ANO"),
                 model = "within")
summary(mod14.2.8,robust=TRUE)
```

##### Normalidade dos resíduos 
(Anderson-Darling) normality test H0: Há distribuição normal dos
resíduos - se p-value \< 0,05, rejeita-se a hipótese nula, logo não há
distribuição normal dos resíduos.

```{r}
ad.test(mod14.2.8$residuals)
boxplot(mod14.2.8$residuals)
```

##### Homocedasticidade dos resíduos

(Breusch-Pagan) \*hipótese nula
(p-valor\>0,05) é a de que não há homocedasticidade nos resíduos

```{r}
bptest(mod14.2.8)
```


##### Multicolinearidade
Um VIF entre 5 e 10 indica alta correlação, o que pode ser problemático.
E se o VIF for acima de 10, você pode assumir que os coeficientes de
regressão estão mal estimados devido à multicolinearidade.

```{r}
car::vif(mod14.2.8.pool)
```


##### Correlação serial 

(teste Breusch-Godfrey/Wooldridge) \*hipótese nula
(p-valor\>0,05), não há problemas de correlação serial nos dados.

```{r}
pbgtest(mod14.2.8)
```

# Exportando modelos

```{r}
library(jtools)
```

## Tabela 1-Efeito da Lei 13506 nas Reapresentacoes e PAS

mod3.1.1.1: Reapreasentacao = lei (sem controles)
mod3.1.1: Reapresentacao = lei (com controles)
mod3.2.1.1: PAS = lei (sem controles)
mod3.2.1: PAS = lei (com controles)

```{r}
export_summs(
  mod3.1.1.1,
  mod3.1.1,
  mod3.2.1.1,
  mod3.2.1,
  model.names = c("Reapr S", "Reapr C", "PAS S", "PAS C"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 1-Efeito da Lei 13506 nas Reapresentacoes e PAS",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 1-Efeito da Lei 13506 nas Reapresentacoes e PAS1.docx"
)

```

## Tabela 2 - Reapr e PAS e Monitoramento PLM


mod1.1.1: Reapresentacao = Monitoramento Diferenciado (com controles)
mod1.1.10: Reapresentacao = Monitoramento Especial (com controles)
mod1.2.1: PAS = Monitoramento Diferenciado (com controles)
mod1.2.8: PAS = Monitoramento Especial (com controles)


```{r}
export_summs(
  mod1.1.1,
  mod1.1.10,
  mod1.2.1,
  mod1.2.8,
  model.names = c("Reapr Monit Dif", "Reapr Monit Esp", "PAS Monit Dif", "PAS Monit Esp"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela de Regressão Reapresentacao e PAS e Lei",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 2 - Reapr e PAS e Monitoramento PLM.docx"
)

```

## Tabela 3 - Reapr PAS e Interacao

mod4.1.1.1: Reapreasentacao = Monitoramento Diferenciado * Lei (sem controles)
mod4.1.1: Reapresentacao = Monitoramento Diferenciado * Lei (com controles)
mod4.1.10.1: Reapreasentacao = Monitoramento Especial * Lei (sem controles)
mod4.1.10: Reapresentacao = Monitoramento Especial * Lei (com controles)
mod4.2.1.1: PAS = Monitoramento Diferenciado * Lei (sem controles)
mod4.2.1: PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.8.1: PAS = Monitoramento Especial * Lei (sem controles)
mod4.2.8: PAS = Monitoramento Especial * Lei (com controles)

```{r}
export_summs(
  mod4.1.1.1,
  mod4.1.1,
  mod4.1.10.1,
  mod4.1.10,
  mod4.2.1.1,
  mod4.2.1,
  mod4.2.8.1,
  mod4.2.8,
  model.names = c("Reapr Monit Dif", "Reapr Monit DifC", "Reapr Monit Esp", "Reapr Monit EspC", "PAS Monit Dif", "PAS Monit DifC", "PAS Monit Esp", "PAS Monit EspC"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela de Regressão Interacao",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 3 - Reapr PAS e Interacao1.docx"
)

```



## Tabela 4 - Reapr Quanti Contábil Qtd Reapr e Monitoramento

mod1.1.5: Quanti_Reapr = Monitoramento Diferenciado (com controles)
mod1.1.14: Quanti_Reapr = Monitoramento Especial (com controles)
mod1.1.6: Contábil_Reapr = Monitoramento Diferenciado (com controles)
mod1.1.15: Contábil_Reapr = Monitoramento Especial (com controles)
mod1.1.9: Qtd_Reapr = Monitoramento Diferenciado (com controles)
mod1.1.18: Qtd_Reapr = Monitoramento Especial (com controles)



```{r}
export_summs(
  mod1.1.5,
  mod1.1.14,
  mod1.1.6,
  mod1.1.15,
  mod1.1.9,
  mod1.1.18,
  model.names = c("Quanti DIF", "Quanti ESP", "Cont DIF", "Cont ESP", "Qtd Dif", "Qtd ESP"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela de Regressão Reapr Quali Quanti",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 4 - Reapr Quanti Contábil Qtd Reapr e Monitoramento.docx"
)

```



## Tabela 5-PAS Quanti Cont Culpado e Monitoramento

mod1.2.2: Quanti_PAS = Monitoramento Diferenciado (com controles)
mod1.2.9: Quanti_PAS = Monitoramento Especial (com controles)
mod1.2.4: Contábil_PAS = Monitoramento Diferenciado (com controles)
mod1.2.11: Contábil_PAS = Monitoramento Especial (com controles)
mod1.2.7: Culpado_PAS = Monitoramento Diferenciado (com controles)
mod1.2.14: Culpado_PAS = Monitoramento Especial (com controles)


```{r}
export_summs(
  mod1.2.2,
  mod1.2.9,
  mod1.2.4,
  mod1.2.11,
  mod1.2.7,
  mod1.2.14,
  model.names = c("Quanti PAS Dif", "Quanti PAS ESP", "Cont PAS Dif", "Cont PAS Esp", "Culpado PAS Dif", "Culpado PAS Esp"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 8-PAS Quali e Quanti e Monitoramento",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 5-PAS Quanti Cont Culpado e Monitoramento.docx"
)

```




















## Tabela 6-Reapr Quanti Cont e lei

mod3.1.5: Quanti_Reapr = lei (com controles)
mod3.1.6: Contábil_Reapr = lei (com controles)


```{r}
export_summs(
  mod3.1.5,
  mod3.1.6,
  model.names = c("Reapr Quanti", "Reapr Cont"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 14-Reapr Quali e Quanti e lei",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 6-Reapr Quanti Cont e lei.docx"
)

```



## Tabela 7-Reapr Quantidade e lei

mod3.1.9: Qtd_Reapr = lei (com controles)
mod3.1.9.zip: Qtd_Reapr = lei13506 (com controles)
mod3.1.9.nb: Qtd_Reapr = lei (com controles)
mod3.1.9.zinb: Qtd_Reapr = lei13506 (com controles)

```{r}
library(stargazer)

# Gerar tabela com modelos incluindo zeroinfl
stargazer(
  mod3.1.9,
  mod3.1.9.zip,
  mod3.1.9.nb,
  mod3.1.9.zinb,
  type = "text",  # Altere para "html" ou "latex" conforme necessário
  title = "Tabela 16-Reapr Quantidade e lei",
  out = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 7-Reapr Quantidade e lei.docx"
)

```



## Tabela 8-PAS Quanti Cont e Culp e lei

mod3.2.2: Quanti_PAS = lei (com controles)
mod3.2.4: Contábil_PAS = lei (com controles)
mod3.2.7: Culpado_PAS = lei (com controles)

```{r}
export_summs(
  mod3.2.2,
  mod3.2.4,
  mod3.2.7,
  model.names = c("PAS Quanti", "PAS Cont", "Culp PAS"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 17-PAS Quali e Quanti e lei",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 8-PAS Quanti Cont e Culp e lei.docx"
)

```



## Tabela 9-Reapr Quanti Cont Qtd e Interacao

mod4.1.5: Quanti_Reapr = Monitoramento Diferenciado * Lei (com controles)
mod4.1.14: Quanti_Reapr = Monitoramento Especial * Lei (com controles)
mod4.1.6: Contábil_Reapr = Monitoramento Diferenciado * Lei (com controles)
mod4.1.15: Contábil_Reapr = Monitoramento Especial * Lei (com controles)
mod4.1.9: Qtd_Reapr = Monitoramento Diferenciado * Lei (com controles)
mod4.1.18: Qtd_Reapr = Monitoramento Especial * Lei (com controles)



```{r}
export_summs(
  mod4.1.5,
  mod4.1.14,
  mod4.1.6,
  mod4.1.15,
  mod4.1.9,
  mod4.1.18,
  model.names = c("Quanti Reap Dif", "Quanti Reap Esp", "Cont Dif", "Cont Esp", "Qtd Dif", "Qtd Esp"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 21-Monitoramento e Lei nas Reapresentacoes Quali e Quanti",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 9-Reapr Quanti Cont Qtd e Interacao.docx"
)

```



## Tabela 10-PAS Quanti Cont Culp e Interacao


mod4.2.2: Quanti_PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.9: Quanti_PAS = Monitoramento Especial * Lei (com controles)
mod4.2.4: Contábil_PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.11: Contábil_PAS = Monitoramento Especial * Lei (com controles)
mod4.2.7: Culpado_PAS = Monitoramento Diferenciado * Lei (com controles)
mod4.2.14: Culpado_PAS = Monitoramento Especial * Lei (com controles)


```{r}
export_summs(
  mod4.2.2,
  mod4.2.9,
  mod4.2.4,
  mod4.2.11,
  mod4.2.7,
  mod4.2.14,
  model.names = c("Quanti PAS Dif", "Quanti PAS Esp", "Cont PAS Dif", "Cont PAS Esp", "Culp PAS Dif", "Culp PAS Esp"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 24-Monitoramento e Lei nos PAS Quali e Quanti",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 10-PAS Quanti Cont Culp e Interacao.docx"
)

```

## Tabela 11,12,13,14-RDD Reapresentacao 2010 a 2022 (voltar)

mod2.1.1.2010: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.12.2010: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.2.2011: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.13.2011: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.3.2012: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.14.2012: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.4.2013: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.15.2013: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.5.2014: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.16.2014: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.6.2015: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.17.2015: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.7.2016: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.18.2016: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.8.2017: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.19.2017: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.9.2018: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.20.2018: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.10.2019: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.21.2019: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.11.2020: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.22.2020: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.11.2021: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.23.2021: Reapresentacao = Monitoramento Especial (com controles)
mod2.1.11.2022: Reapresentacao = Monitoramento Diferenciado (com controles)
mod2.1.24.2022: Reapresentacao = Monitoramento Especial (com controles)

```{r}
# Painel A: 2010–2013
export_summs(
  mod2.1.1.2010,
  mod2.1.12.2010,
  mod2.1.2.2011,
  mod2.1.13.2011,
  mod2.1.3.2012,
  mod2.1.14.2012,
  mod2.1.4.2013,
  mod2.1.15.2013,
  model.names = c("2010 Dif", "2010 Esp", "2011 Dif", "2011 Esp", 
                  "2012 Dif", "2012 Esp", "2013 Dif", "2013 Esp"),
  title = "Painel A: 2010–2013",
  to.file = "docx",
  file.name = "Tabela 11-RDD Reapresentacao 2010 a 2013.docx"
)

# Painel B: 2014–2016
export_summs(
  mod2.1.5.2014,
  mod2.1.16.2014,
  mod2.1.6.2015,
  mod2.1.17.2015,
  mod2.1.7.2016,
  mod2.1.18.2016,
  model.names = c("2014 Dif", "2014 Esp", "2015 Dif", "2015 Esp", 
                  "2016 Dif", "2016 Esp"),
  title = "Painel B: 2014–2016",
  to.file = "docx",
  file.name = "Tabela 12-RDD Reapresentacao 2014 a 2016.docx"
)

# Painel C: 2017–2019
export_summs(
  mod2.1.8.2017,
  mod2.1.19.2017,
  mod2.1.9.2018,
  mod2.1.20.2018,
  mod2.1.10.2019,
  mod2.1.21.2019,
  model.names = c("2017 Dif", "2017 Esp", "2018 Dif", "2018 Esp", 
                  "2019 Dif", "2019 Esp"),
  title = "Painel C: 2017–2019",
  to.file = "docx",
  file.name = "Tabela 13-RDD Reapresentacao 2017 a 2019.docx"
)

# Painel D: 2020–2023
export_summs(
  mod2.1.11.2020,
  mod2.1.22.2020,
  mod2.1.11.2021,
  mod2.1.23.2021,
  mod2.1.11.2022,
  mod2.1.24.2022,
  model.names = c("2020 Dif", "2020 Esp", "2021 Dif", "2021 Esp", 
                  "2022 Dif", "2022 Esp"),
  title = "Painel D: 2020–2023",
  to.file = "docx",
  file.name = "Tabela 14-RDD Reapresentacao 2020 a 2022.docx"
)

```


```{r}
# Painel A: 2010–2015-2020
export_summs(
  mod2.1.1.2010,
  mod2.1.12.2010,
  mod2.1.6.2015,
  mod2.1.17.2015,
  mod2.1.11.2020,
  mod2.1.22.2020,
  model.names = c("2010 Dif", "2010 Esp", "2015 Dif", "2015 Esp", 
                  "2020 Dif", "2020 Esp"),
  title = "Painel A: 2010–2015-2020",
  to.file = "docx",
  file.name = "Tabela 11-RDD Reapresentacao 2010 2015 2020.docx"
)
```



## Tabela 15,16,17,18-RDD PAS 2010 a 2022 (voltar)

mod2.2.1.2010: PAS = Monitoramento Diferenciado (com controles)
mod2.2.14.2010: PAS = Monitoramento Especial (com controles)
mod2.2.2.2011: PAS = Monitoramento Diferenciado (com controles)
mod2.2.15.2011: PAS = Monitoramento Especial (com controles)
mod2.2.3.2012: PAS = Monitoramento Diferenciado (com controles)
mod2.2.16.2012: PAS = Monitoramento Especial (com controles)
mod2.2.4.2013: PAS = Monitoramento Diferenciado (com controles)
mod2.2.17.2013: PAS = Monitoramento Especial (com controles)


mod2.2.5.2014: PAS = Monitoramento Diferenciado (com controles)
mod2.2.18.2014: PAS = Monitoramento Especial (com controles)
mod2.2.6.2015: PAS = Monitoramento Diferenciado (com controles)
mod2.2.19.2015: PAS = Monitoramento Especial (com controles)
mod2.2.7.2016: PAS = Monitoramento Diferenciado (com controles)
mod2.2.20.2016: PAS = Monitoramento Especial (com controles)


mod2.2.8.2017: PAS = Monitoramento Diferenciado (com controles)
mod2.2.21.2017: PAS = Monitoramento Especial (com controles)
mod2.2.9.2018: PAS = Monitoramento Diferenciado (com controles)
mod2.2.22.2018: PAS = Monitoramento Especial (com controles)
mod2.2.10.2019: PAS = Monitoramento Diferenciado (com controles)
mod2.2.23.2019: PAS = Monitoramento Especial (com controles)

mod2.2.11.2020: PAS = Monitoramento Diferenciado (com controles)
mod2.2.24.2020: PAS = Monitoramento Especial (com controles)
mod2.2.12.2021: PAS = Monitoramento Diferenciado (com controles)
mod2.2.25.2021: PAS = Monitoramento Especial (com controles)
mod2.2.13.2022: PAS = Monitoramento Diferenciado (com controles)
mod2.2.26.2022: PAS = Monitoramento Especial (com controles)



```{r}
# Painel A: 2010–2013
export_summs(
  mod2.2.1.2010,
  mod2.2.14.2010,
  mod2.2.2.2011,
  mod2.2.15.2011,
  mod2.2.3.2012,
  mod2.2.16.2012,
  mod2.2.4.2013,
  mod2.2.17.2013,
  model.names = c("2010 Dif", "2010 Esp", "2011 Dif", "2011 Esp", 
                  "2012 Dif", "2012 Esp", "2013 Dif", "2013 Esp"),
  title = "Painel A: 2010–2013",
  to.file = "docx",
  file.name = "Tabela 15-RDD PAS 2010 a 2013.docx"
)

# Painel B: 2014–2016
export_summs(
  mod2.2.5.2014,
  mod2.2.18.2014,
  mod2.2.6.2015,
  mod2.2.19.2015,
  mod2.2.7.2016,
  mod2.2.20.2016,
  model.names = c("2014 Dif", "2014 Esp", "2015 Dif", "2015 Esp", 
                  "2016 Dif", "2016 Esp"),
  title = "Painel B: 2014–2016",
  to.file = "docx",
  file.name = "Tabela 16-RDD PAS 2014 a 2016.docx"
)

# Painel C: 2017–2019
export_summs(
  mod2.2.8.2017,
  mod2.2.21.2017,
  mod2.2.9.2018,
  mod2.2.22.2018,
  mod2.2.10.2019,
  mod2.2.23.2019,
  model.names = c("2017 Dif", "2017 Esp", "2018 Dif", "2018 Esp", 
                  "2019 Dif", "2019 Esp"),
  title = "Painel C: 2017–2019",
  to.file = "docx",
  file.name = "Tabela 17-RDD PAS 2017 a 2019.docx"
)

# Painel D: 2020–2023
export_summs(
  mod2.2.11.2020,
  mod2.2.24.2020,
  mod2.2.12.2021,
  mod2.2.25.2021,
  mod2.2.13.2022,
  mod2.2.26.2022,
  model.names = c("2020 Dif", "2020 Esp", "2021 Dif", "2021 Esp", 
                  "2022 Dif", "2022 Esp"),
  title = "Painel D: 2020–2023",
  to.file = "docx",
  file.name = "Tabela 18-RDD PAS 2020 a 2022.docx"
)

```

```{r}
# Painel B: 2010–2015-2020
export_summs(
  mod2.2.1.2010,
  mod2.2.14.2010,
  mod2.2.6.2015,
  mod2.2.19.2015,
  mod2.2.11.2020,
  mod2.2.24.2020,
  model.names = c("2010 Dif", "2010 Esp", "2015 Dif", "2015 Esp", 
                  "2020 Dif", "2020 Esp"),
  title = "Painel A: 2010–2013",
  to.file = "docx",
  file.name = "Tabela 15-RDD PAS 2010 2015 2020.docx"
)



```




## Tabela 19-Agressividade = Monitoramento Tributário + Controles

mod9.1.1: ETR = Monitoramento Diferenciado (com controles)
mod9.1.5: ETR = Monitoramento Especial (com controles)
mod9.1.2: CETR = Monitoramento Diferenciado (com controles)
mod9.1.6: CETR = Monitoramento Especial (com controles)
mod9.1.3: ETRLONG = Monitoramento Diferenciado (com controles)
mod9.1.7: ETRLONG = Monitoramento Especial (com controles)
mod9.1.4: CTRIB = Monitoramento Diferenciado (com controles)
mod9.1.8: CTRIB = Monitoramento Especial (com controles)


```{r}
export_summs(
  mod9.1.1,
  mod9.1.5,
  mod9.1.2,
  mod9.1.6,
  mod9.1.3,
  mod9.1.7,
  mod9.1.4,
  mod9.1.8,
  model.names = c("ETR Dif", "ETR Esp", "CETR Dif", "CETR Esp", "ETRLONG Dif", "ETRLONG Esp", "CTRIB Dif", "CTRIB Esp"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 24-Monitoramento e Lei nos PAS Quali e Quanti",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 19-Agressividade e Monitoramento.docx"
)
```

## Tabela 20-Maior Agressividade = Monitoramento Tributário + Controles

mod10.1.1: MAIORETR = Monitoramento Diferenciado (com controles)
mod10.1.5: MAIORETR = Monitoramento Especial (com controles)
mod10.1.2: MAIORCETR = Monitoramento Diferenciado (com controles)
mod10.1.6: MAIORCETR = Monitoramento Especial (com controles)
mod10.1.3: MAIORETRLONG = Monitoramento Diferenciado (com controles)
mod10.1.7: MAIORETRLONG = Monitoramento Especial (com controles)
mod10.1.4: MAIORCTRIB = Monitoramento Diferenciado (com controles)
mod10.1.8: MAIORCTRIB = Monitoramento Especial (com controles)

```{r}
export_summs(
  mod10.1.1,
  mod10.1.5,
  mod10.1.2,
  mod10.1.6,
  mod10.1.3,
  mod10.1.7,
  mod10.1.4,
  mod10.1.8,
  model.names = c("MAIORETR Dif", "MAIORETR Esp", "MAIORCETR Dif", "MAIORCETR Esp", "MAIORETRLONG Dif", "MAIORETRLONG Esp", "MAIORCTRIB Dif", "MAIORCTRIB Esp"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 24-Monitoramento e Lei nos PAS Quali e Quanti",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 20-Maior Agressividade e Monitoramento.docx"
)
```



## Tabela 21-Irregularidades = Agressividade + Controles


mod11.1.1: Reapresentacao = ETR (com controles)
mod11.1.2: Reapresentacao = CETR (com controles)
mod11.1.3: Reapresentacao = ETRLONGLONG (com controles)
mod11.1.4: Reapresentacao = CTRIB (com controles)

mod11.2.1: PAS = ETR (com controles)
mod11.2.2: PAS = CETR (com controles)
mod11.2.3: PAS = ETRLONG(com controles)
mod11.2.4: PAS = CTRIB (com controles)


```{r}
export_summs(
  mod11.1.1,
  mod11.1.2,
  mod11.1.3,
  mod11.1.4,
  mod11.2.1,
  mod11.2.2,
  mod11.2.3,
  mod11.2.4,
  model.names = c("ETR", "CETR", "ETRLong", "CTRIB", "ETR1", "CETR2", "ETRLong3", "CTRIB4"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 21-Irregularidades e Agre continuas",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 21-Irregularidades e Agre continuas.docx"
)
```

## Tabela 22-Irregularidades = MaiorAgressividade + Controles

mod12.1.1: Reapresentacao = MAIORETR (com controles)
mod12.1.2: Reapresentacao = MAIORCETR (com controles)
mod12.1.3: Reapresentacao = MAIORETRLONGLONG (com controles)
mod12.1.4: Reapresentacao = MAIORCTRIB (com controles)
mod12.2.1: PAS = MAIORETR (com controles)
mod12.2.2: PAS = MAIORCETR (com controles)
mod12.2.3: PAS = MAIORETRLONG(com controles)
mod12.2.4: PAS = MAIORCTRIB (com controles)



```{r}
export_summs(
  mod12.1.1,
  mod12.1.2,
  mod12.1.3,
  mod12.1.4,
  mod12.2.1,
  mod12.2.2,
  mod12.2.3,
  mod12.2.4,
  model.names = c("METR", "MCETR", "METRLong", "MCTRIB", "METR1", "MCETR2", "METRLong3", "MCTRIB4"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 22-Irregularidades e Maior Agressividade",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 22-Irregularidades e Maior Agressividade.docx"
)
```


## Tabela 23-Reapr = MONITTRIB x AGRE x LEI13506 e Controles

mod13.1.1: Reapresentacao = Monit Dif * ETR * Lei13506 (com controles)
mod13.1.5: Reapresentacao = Monit Esp * ETR * Lei13506 (com controles)
mod13.1.2: Reapresentacao = Monit Dif * CETR * Lei13506 (com controles)
mod13.1.6: Reapresentacao = Monit Esp * CETR * Lei13506 (com controles)
mod13.1.3: Reapresentacao = Monit Dif * ETRLONG * Lei13506 (com controles)
mod13.1.7: Reapresentacao = Monit Esp * ETRLONG * Lei13506 (com controles)
mod13.1.4: Reapresentacao = Monit Dif * CTRIB * Lei13506 (com controles)
mod13.1.8: Reapresentacao = Monit Esp * CTRIB * Lei13506 (com controles)

```{r}
export_summs(
  mod13.1.1,
  mod13.1.5,
  mod13.1.2,
  mod13.1.6,
  mod13.1.3,
  mod13.1.7,
  mod13.1.4,
  mod13.1.8,
  model.names = c("METR", "MCETR", "METRLong", "MCTRIB", "METR1", "MCETR2", "METRLong3", "MCTRIB4"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 23-Reapr = MONITTRIB x AGRE x LEI13506 e Controles",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 23-Reapr = MONITTRIB x AGRE x LEI13506 e Controles.docx"
)
```


## Tabela 24-PAS = MONITTRIB x AGRE x LEI13506 e Controles

mod13.2.1: PAS = Monit Dif * ETR * Lei13506 (com controles)
mod13.2.5: PAS = Monit Esp * ETR * Lei13506 (com controles)
mod13.2.2: PAS = Monit Dif * CETR * Lei13506 (com controles)
mod13.2.6: PAS = Monit Esp * CETR * Lei13506 (com controles)
mod13.2.3: PAS = Monit Dif * ETRLONG * Lei13506 (com controles)
mod13.2.7: PAS = Monit Esp * ETRLONG * Lei13506 (com controles)
mod13.2.4: PAS = Monit Dif * CTRIB * Lei13506 (com controles)
mod13.2.8: PAS = Monit Esp * CTRIB * Lei13506 (com controles)

```{r}
export_summs(
  mod13.2.1,
  mod13.2.5,
  mod13.2.2,
  mod13.2.6,
  mod13.2.3,
  mod13.2.7,
  mod13.2.4,
  mod13.2.8,
  model.names = c("METR", "MCETR", "METRLong", "MCTRIB", "METR1", "MCETR2", "METRLong3", "MCTRIB4"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 24-PAS = MONITTRIB x AGRE x LEI13506 e Controles",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 24-PAS = MONITTRIB x AGRE x LEI13506 e Controles.docx"
)
```


## Tabela 25-Reapr = MONITTRIB x MAIORAGRE x LEI13506 e Controles

mod14.1.1: Reapresentacao = Monit Dif * MAIORETR * Lei13506 (com controles)
mod14.1.5: Reapresentacao = Monit Esp * MAIORETR * Lei13506 (com controles)
mod14.1.2: Reapresentacao = Monit Dif * MAIORCETR * Lei13506 (com controles)
mod14.1.6: Reapresentacao = Monit Esp * MAIORCETR * Lei13506 (com controles)
mod14.1.3: Reapresentacao = Monit Dif * MAIORETRLONG * Lei13506 (com controles)
mod14.1.7: Reapresentacao = Monit Esp * MAIORETRLONG * Lei13506 (com controles)
mod14.1.4: Reapresentacao = Monit Dif * MAIORCTRIB * Lei13506 (com controles)
mod14.1.8: Reapresentacao = Monit Esp * MAIORCTRIB * Lei13506 (com controles)

```{r}
export_summs(
  mod14.1.1,
  mod14.1.5,
  mod14.1.2,
  mod14.1.6,
  mod14.1.3,
  mod14.1.7,
  mod14.1.4,
  mod14.1.8,
  model.names = c("METR", "MCETR", "METRLong", "MCTRIB", "METR1", "MCETR2", "METRLong3", "MCTRIB4"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 25-Reapr = MONITTRIB x MAIORAGRE x LEI13506 e Controles",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 25-Reapr = MONITTRIB x MAIORAGRE x LEI13506 e Controles1.docx"
)
```


## Tabela 26-PAS = MONITTRIB x MAIORAGRE x LEI13506 e Controles

mod14.2.1: PAS = Monit Dif * MAIORETR * Lei13506 (com controles)
mod14.2.5: PAS = Monit Esp * MAIORETR * Lei13506 (com controles)
mod14.2.2: PAS = Monit Dif * MAIORCETR * Lei13506 (com controles)
mod14.2.6: PAS = Monit Esp * MAIORCETR * Lei13506 (com controles)
mod14.2.3: PAS = Monit Dif * MAIORETRLONG * Lei13506 (com controles)
mod14.2.7: PAS = Monit Esp * MAIORETRLONG * Lei13506 (com controles)
mod14.2.4: PAS = Monit Dif * MAIORCTRIB * Lei13506 (com controles)
mod14.2.8: PAS = Monit Esp * MAIORCTRIB * Lei13506 (com controles)


```{r}
export_summs(
  mod14.2.1,
  mod14.2.5,
  mod14.2.2,
  mod14.2.6,
  mod14.2.3,
  mod14.2.7,
  mod14.2.4,
  mod14.2.8,
  model.names = c("METR", "MCETR", "METRLong", "MCTRIB", "METR1", "MCETR2", "METRLong3", "MCTRIB4"),
  error_pos = c("same", "below", "right"),
  bold_signif = 0.1,
  borders = 2,
  outer_borders = 2,
  statistics = c(
    N = "nobs.1",
    R2 = "r.squared",
    adj.R2 = "adj.r.squared",
    p.value = "p.value",
    "GL" = "df",
    AIC = "AIC",
    "logLik" = "logLik",
    "Pseudo R2" = "pseudo.r.squared"
  ),
  scale = TRUE,
  robust = TRUE,
  digits = 3,
  note = "{stars}. Erros padrões robustos clusterizados",
  title = "Tabela 26-PAS = MONITTRIB x MAIORAGRE x LEI13506 e Controles",
  to.file = "docx",
  file.name = "C:/MESTRADO/DISSERTACAO/TRATAMENTO DE DADOS/TRATAMENTO DE DADOS-BASE COMDINHEIRO/Tabela 26-PAS = MONITTRIB x MAIORAGRE x LEI13506 e Controles.docx"
)
```







































